JP5308786B2 - 文書データ検索装置 - Google Patents

文書データ検索装置 Download PDF

Info

Publication number
JP5308786B2
JP5308786B2 JP2008297387A JP2008297387A JP5308786B2 JP 5308786 B2 JP5308786 B2 JP 5308786B2 JP 2008297387 A JP2008297387 A JP 2008297387A JP 2008297387 A JP2008297387 A JP 2008297387A JP 5308786 B2 JP5308786 B2 JP 5308786B2
Authority
JP
Japan
Prior art keywords
search
document data
word
index file
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008297387A
Other languages
English (en)
Other versions
JP2010123005A (ja
Inventor
▲シン▼ 徐
恒夫 加藤
恒 河井
正樹 内藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2008297387A priority Critical patent/JP5308786B2/ja
Publication of JP2010123005A publication Critical patent/JP2010123005A/ja
Application granted granted Critical
Publication of JP5308786B2 publication Critical patent/JP5308786B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、コンテンツ関連用語によるコンテンツの検索システムや、大量の文書データ(テキスト文書)を検索するテキストの検索システムにおいて使用される検索装置に関し、文書データ内に存在する原文と一致しない検索単語を入力した場合にも、類似度を高速に判別して目的のコンテンツや文書データの検索ができるようにした文書データ検索装置に関する。
テキストに対する検索装置においては、キーワードの完全一致検索が行われるが、使い勝手の向上を図るため、例えば「インタフェース」と「インターフェス」のように完全に一致していないものでも一致するというように判断する「あいまい検索」を行うことが要求されている。
例えば特許文献1に記載された類似テキスト検索装置では、テキストに対するNグラム要素(N文字の並び)を作成し、複数のテキストに関するNグラム要素の一致度を演算する。その演算結果において、一致度の高い順で検索対象候補を出力することによって、高速な類似テキスト検索を実現している。
また、特許文献2に記載された音声検索システムでは、音声認識された音声データ中の単語や語句を検索する場合において、検索したい文字列が誤認識されていたり未知語であった場合にも対処するため、入力された検索文字列を音素列に変換し、連続単語音声認識で用いられているサーチアルゴリズムを利用し、検索対象となる音声データの音声認識結果に出現し得る類似単語または類似単語列に展開してから検索することが行われる。
検索単語(文字列)として「ハリーポッター」を入力した場合を例に説明すると、音声データの認識結果には「ハリー」、「ポスター」、「は」、「リポーター」、などの単語候補がピックアップされる。このとき、単語候補を並べることで、検索文字列「ハリーポッター」と音響的に近い「ハリー」+「ポスター」、「は」+「リポーター」、などの単語列に展開する。この展開は、検索文字列と音響的な距離が近くなるように行われるため、検索文字列の認識結果となる可能性が高い単語列を誤認識も含めて求めることになる。
特開2003−288366号公報 特開2006−31278号公報
歌詞の一部分を検索キーワードとして楽曲を検索する文書データ検索装置において、ユーザが聞き間違えて覚えてしまった歌詞で検索する場合(例えば、歌詞の原文に存在する文字列が「無数の光」であるのに対して、検索文字列を「まっすぐの光」と誤って入力して検索した場合)を想定する。
この場合、特許文献1の類似テキスト装置のように、文字列の編集距離の計算やNグラムのインデクシングを行っても、「無数」と「まっすぐ」とでは編集距離等が乖離しているため、目的とする楽曲の情報(歌詞文)の検索は不可能である。
また、特許文献2の装置については、検索するたびに、検索文字列を単語列に展開するために、検索文字列と展開する単語候補との音響的な距離の計算を行う必要がある。特に検索クエリの文字列数が多く(2つ以上の非連続歌詞キーワード)、かつ検索対象となる歌詞ファイルが多い(商用検索システムでは数万以上)場合に、オンライン上での計算時間を要して検索が非常に遅くなるという問題点があった。
本発明は上記実情に鑑みて提案されたもので、大量のテキスト文書を検索するテキスト文書検索システムにおいて、検索原文と一致しない検索文字列を入力した場合にも、類似度を高速に判別して目的のコンテンツや文書の検索を可能とする文書データ検索装置を提供することを目的とする。
上記目的を達成するため請求項1の発明は、検索文字列が入力される入力インタフェースを備え、前記検索文字列により複数の検索対象文書データから文書データの検索を行う検索装置であって、次の構成を含むことを特徴としている。
単語抽出手段。この単語抽出手段は、予め複数の文書データを入力し前記文書データを構成する単語を抽出するものである。
キーワード登録手段。このキーワード登録手段は、前記検索文字列に含まれる可能性のある検索単語をキーワードとしてリストに登録するものである。
INDEXファイル作成手段。このINDEXファイル作成手段は、前記単語抽出手段により抽出された抽出単語とキーワードに対して分解された読み仮名又は音素同士の比較から算出される音響類似距離値を用いて検索用INDEXファイルを作成するものである。
類似度演算手段。この類似度演算手段は、入力された検索文字列から得られる検索単語に基づいて、前記INDEXファイルを参照して入力された検索単語による検索対象文書データの類似度を演算するものである。
出力インタフェース。この出力インタフェースは、前記類似度に基づいた文書データの検索結果を出力するものである。
請求項2の発明は、請求項1の文書データ検索装置において、
前記INDEXファイル作成手段の音響類似距離値は、
前記キーワードと抽出単語同士の編集距離を計算する手段によりそれぞれ読み仮名列に変換し、二つ読み仮名列において、音節を単位としたDPマッチングを行うことで、音節間の距離(違う音節間同士のペナルティ値),音節の挿入時のペナルティ値,音節の脱落時のペナルティ値それぞれに所望の数値を与える計算手段により計算することを特徴としている。
請求項3の発明は、請求項1の文書データ検索装置において、
前記INDEXファイル作成手段の音響類似距離値は、
前記キーワードと抽出単語同士の二つの音素列の編集距離を計算する手段によりそれぞれの単語の読みを音素列に変換し、二つ音素列において、音素を単位としたDPマッチングを行うことで、音素間の距離(違う音素間同士のペナルティ値),音素の挿入時のペナルティ値,音素の脱落時のペナルティ値それぞれに所望の数値を与える計算手段により計算することを特徴としている。
請求項4の発明は、請求項1乃至請求項3のいずれかに記載の文書データ検索装置において、
前記INDEXファイル作成手段は、前記検索対象文書データから抽出された前記抽出単語の文書データ中における位置情報及び登場頻度をパラメータとした重要度情報を登録したファイルを作成することを特徴としている。
請求項5の発明は、請求項1の文書データ検索装置において、
前記出力インタフェースは、音響類似距離値に基づいて適合度を計算し、INDEXファイルによる検索文字列から得られる一つ又は複数の検索単語との適合度の高い順で検索結果を出力する手段を備えることにより、
INDEXファイルによる検索文字列との適合度の高い順で上位N個の検索対象文書データ候補を絞り、前記N個候補における検索文字列の音素列と前記検索対象文書データ候補の文字列の音素列とのDPマッチングを計算し、その計算結果を類似度として出力順位を決めることを特徴としている。
音響類似距離値に基づいて計算される適合度は、例えば、音響類似距離値に任意の数を加算した数値の逆数を含んだ値とする。
すなわち本発明は、文書データ検索装置において、入力される可能性がある単語を予測し、この単語と文書データ中の検索対象単語との音響類似距離を事前に計算し、文書データ中で検索される可能性がある単語と最も音響的に類似する単語候補に対して、二つの単語間の音響類似距離値、その単語候補の文書データ中の位置、重要度の情報に基づいて検索INDEXファイルを作成する手段を設けることを特徴的な構成としている。
本発明によれば、検索対象単語とは完全一致しない、聞き間違えて覚えた検索文字列で検索する場合でも、検索文字列と音響的に類似する候補を挙げることが出来るため、探したい検索対象テキスト文書(コンテンツ)を検索することが可能となる。
また、本発明のINDEXファイルの作成段階において、事前に検索キーワードと検索対象となる単語の音響類似距離を計算しておくため、検索時に音響類似距離の計算が不要となり、検索の時間を削減することできるので、類似テキスト検索における高速化が可能となる。
以下、本発明の文書データ検索装置の一実施形態について、図1のブロック図を参照しながら説明する。
文書データ検索装置1は、楽曲の歌詞を検索する装置に適用した例であり、歌詞の一部のフレーズ等を検索文字列として入力する入力インタフェース2と、歌詞データ(文書データ)の検索結果を出力する出力インタフェース3と、検索対象となる複数の歌詞データ(歌詞ファイル)が格納された歌詞データベース4と、入力インタフェース2に入力された検索文字列から歌詞データベース4に格納されている歌詞データの検索処理を行う制御部10を有して構成されている。
制御部10は、予め複数の歌詞データ(文書データ)を入力し歌詞(文書データ)を構成する単語を抽出する単語抽出手段11と、検索される可能性のある検索単語(検索文字列に含まれる可能性のある検索単語)をキーワードとしてリストに登録するキーワード登録手段12と、抽出された前記単語(検索対象単語)と登録されたキーワードに対して音響類似距離値を用いて検索用INDEXファイルを作成するINDEXファイル作成手段13と、前記INDEXファイルを参照して入力された検索単語による検索対象文書データの類似度を演算する類似度演算手段14を備えている。
文書データ検索装置1の制御部10においては、検索時に使用するINDEXファイルが単語抽出手段11、キーワード登録手段12、INDEXファイル作成手段13に対して予め入力される情報により作成される。
以下、制御部10におけるINDEXファイルの作成手順について、図2を参照しながら説明する。
先ず、単語抽出手段11により歌詞データベース4に格納されている複数の歌詞ファイルS1〜Siの文書データ(歌詞データ)に対して複数の単語を抽出する形態素解析を行い、歌詞ファイル毎に抽出単語(読み付き)リストLi20を作成する。ここで用いる形態素解析ツールは、日本語および英語の品詞分類に対応でき、また、外来語や仮名英語における表記の揺れについても対応できるようになっている。
次に、キーワード登録手段12により、検索するために入力される単語を予想し、キーワードとして登録したキーワードリスト(A1,…,An)21を作成する。キーワード(検索文字列に含まれる可能性のある検索単語)としては、キーワードリスト21の単語集合の柔軟性を備えるため(聞き間違えて覚えた単語を対応するため)、歌詞データベースに格納されている歌詞に含まれるすべての単語以外にも、歌詞以外のドメインの言語コーパスから抽出した単語なども登録しておく。
歌詞ファイル毎に作成された抽出単語リストLi20中の各単語において、キーワードAnとの音響類似距離を後述する音響類似距離計算方法で計算し、音響類似距離が一番近い単語Wni(歌詞ファイルSiにおいてAnと音響的に最も類似する単語)をそれぞれ抽出し、距離値dni(歌詞ファイルSiにおいて、Anと類似する単語WniとAnの音響類似距離値)を登録することでINDEXファイル22を作成する。
上記INDEXファイル22における音響類似距離値は、以下の手法で計算することが可能である。
INDEXファイル作成手段の音響類似距離値は、キーワード(検索単語)と抽出単語(検索対象単語)同士の読み仮名の編集距離を計算する手段、又は、単語同士の二つ音素列の編集距離を計算する手段により単語の読みを読み仮名又は音素列に変換し、DPマッチングを行うことで類似距離値を求めるものである。
読み仮名列の比較で編集距離を計算してINDEXファイル作成手段の音響類似距離値を求める場合は、先ず、単語同士の編集距離を計算する手段により単語の読みを読み仮名列に変換する。そして、二つ読み仮名列において、音節を単位としたDPマッチングを行うことで、仮名間の距離を各音節を表す音響モデルの分布距離とし、音節の挿入時や脱落時に距離を1とする計算手段により計算する。
また、音素列の比較で編集距離を計算してINDEXファイル作成手段の音響類似距離値を求める場合は、先ず単語同士の二つの音素列の編集距離を計算する手段により単語の読みを音素列に変換する。そして、二つ音素列において、音素を単位としたDPマッチングを行うことで、音素間の距離を各音素を表す音響モデルの確率分布間の距離とし、音素の挿入時や脱落時の距離を1とする計算手段により計算する。
すなわち、先ず検索キーワードAnと検索対象となる単語を両方とも読み仮名又は音素列に変換し、二つの読み仮名又は音素列において、文字又は音素を単位としたDPマッチングを行い、DPマッチング計算により算出された距離値が音響類似距離値となる。
DPマッチングは、系列になっているデータ同士の類似度を計算する方法であり、以下、具体的なDPマッチング計算例に基づいて説明する。
DPマッチングにおいては、「字が合わなければ1点」、「字が一つずれること(挿入や脱落)で1点」というペナルティを決めておく。
例えば、読み仮名同士で比較する場合、4音の文字から構成される「おおさか」と「おおつか」と比較すると、1箇所で字が相違し3箇所で字が一致するので、相違部分が「1×1=1」、一致部分が「0」で総ペナルティは1+0=1点となる。距離値を0〜1.0の値に正規化するため、正規化後のペナルティは「総ペナルティ/文字列長」の計算とし、1/4=0.25となる。正規化を行う場合の分母となる文字列長は、文字列同士の長い方の文字数とする。
また、6文字の「しんおおさか」と、4文字の「おおさか」との比較については、「字が2個ずれた・停滞した」と考えて、「しんおおさか」と「おおおおさか」との比較と考え、字ずれ2個の部分が「1×2=2」で、不一致2個の部分が「1×2=2」で、正規化後のペナルティは(2+2)/6=0.667点になる。DPマッチングでは、ペナルティの値が小さいほど類似性が高いと設定するため、検索単語が「おおさか」である場合、「しんおおさか」よりも「おおつか」の方を似ていると判断する。
また、同じ例で「おおさか」「おおつか」について音素列同士で比較する場合は、「O」「O」「S」「A」「K」「A」と、「O」「O」「TS」「U」「K」「A」との比較となる。[O」「O」「S」「A」「K」「A」と「O」「O」「TS」「U」「K」「A」を考えて、ずれが0個:2×1=2、相違は2個:2×1=2、正規化後のペナルティは(0+2)/8=0.25点になる。正規化を行う場合の分母は、長い方の音素列の音素数である。
また、「おおさか」「しんおおさか」について音素列同士で比較する場合は、「O」「O」「S」「A」「K」「A」と、「S」「I」「N」「O」「O」「S」「A」「K」「A」との比較となる。「O」「O」「O」「O」「O」「S」「A」「K」「A」と「S」「I」「N」「O」「O」「S」「A」「K」「A」と考えて、ずれが3個で3×1=3、相違は3個で3×1=3、正規化後のペナルティは(3+3)/9=0.667点になる。音素レベルでは、検索単語が「おおさか」である場合、「しんおおさか」よりも「おおつか」の方を似ていると判断する。
上述した音響類似距離計算方法では、読み仮名の場合の文字、又は、音素の挿入時や脱落時のペナルティを「1」とし、音節、又は、音素間の距離値(違う音素間のペナルティ値)を「1」としたが、他のペナルティ値を使用して計算しても良い。
例えば、音素間の距離値について、認識時に使用した音素音響モデルのモデル間距離値を使用しても良い。この場合、各音素を表す音響モデルの確率分布間のマハラノビス距離によって音素間の距離値を定義することができる。各音素の音響モデルが1状態かつ単一ガウス分布でモデル化されているとき、2つのモデル間のマハラノビス距離ADij(音素i とj)は、下記の数1で表される。
Figure 0005308786
上記の数1において、
KはMFCC (Mel-Frequency Cepstrum Coefficient) ベクトルの次元数(K=12)、
μikおよびσikは、それぞれ音素iの平均および分散MFCCベクトルのk次元目の要素である。
また、音素間混同行列に基づいて音素間距離を計算しても良い。音素間混同行列とは認識実験などにより求め、行列の要素を確率で表したものである。この音素間混同行列を使用した音素間距離の算出例について、表1を参照して説明する。
表1は、入力音素a、i、u、e、o、・・がそれぞれa、i、u、e、o、・・と聞こえる確率を行列で表したものである。例えば、音素aがaと聞こえる確率は0.9、iと聞こえる確率は0.2、uと聞こえる確率は0.3、・・・などのことが示される。音素混同行列の確率の逆数を音素間距離として定義することができる。
Figure 0005308786
INDEXファイル作成手段13で作成するINDEXファイルには、上記した音響類似距離値の他に、検索単語に対して歌詞データを選択する場合に判断基準となる情報(ランキング要素値)が登録されているものであってもよい。これらの情報としては、例えば、検索単語に類似する単語(歌詞中に存在する検索対象単語)の歌詞データ(文書データ)中における位置情報や、登場頻度をパラメータとして算出する重要度情報が考えられる。
位置情報は、類似単語候補の出現位置pni( pniは類似単語候補Wniが歌詞ファイルSi中での出現位置:何番目に出現する単語であるかの数値)としてINDEXファイルに保存される。出現位置pniが複数ある場合には、その全てを登録しておく。
重要度情報は、検索対象単語が歌詞データ中でどのくらい重要な指標を持つかを評価する特徴量tf・idfと定義し、tfをある歌詞データの中の検索対象単語の出現頻度、idfをlog (検索対象全文書数/検索対象単語を含む文書の数) とした場合に、特徴量tf・idf はこれらの積であるtf・id fで算出される。
また、特徴量tf・idfの値を0〜1.0の値に正規化するため、以下の計算を行う。歌詞ファイルSiの単語Wniのtf・idf値はtf・ idfni,Σtf・idfiはSiの全単語のtf・idf値の総和とする。正規化後のWniのtf・idf’ni=tf・idfni/Σtf・idfi。
そして、キーワードリスト21に登録されたキーワードA1〜Anの全ての単語について、音響類似距離が一番近い単語Wni、音響類似距離計算による距離値dni、出現位置pni、正規化特徴量tf・id f’値を登録したテーブルを作成しておく。INDEXファイル22のテーブルは、例えば、歌詞ファイルS10において、表2のように作成される。
Figure 0005308786
制御部10の類似度演算手段14は、前記テーブルに登録された音響類似距離が一番近い単語Wni、音響類似距離計算による距離値dni、出現位置pni、特徴量tf・idf’値から類似度を演算する。
出力インタフェース3は、制御部10の類似度演算手段14での演算結果に基づいて文書データの検索結果を出力するものであり、INDEXファイルによる検索文字列との類似度(または適合度)の高い順で検索結果を出力するように構成されている。
次に、INDEXファイルが登録された文書データ検索装置を使用して、検索文字列によって歌詞ファイルを検索する場合について、図3のフローチャート及び図2を参照しながら説明する。
先ず、ユーザが聞き覚えのある単語の集合である文字列(歌詞文やフレーズ)を検索文字列として入力インタフェース2に入力する(ステップ101)。
入力された検索文字列は、制御部10において、INDEXファイル作成の際に使用したのと同じ形態素解析が行われ(ステップ102)、解析結果となった検索クエリ単語リストQ1,…,Qmの単語列を抽出する(ステップ103)。
次に、検索クエリ単語リストをINDEXファイル22のキーワードリストに照合し(ステップ104)、一致とされたキーワードA1〜Anを抽出する。例えば、検索クエリ単語リストにQ1、Q2、Q3があり、Q1はA5、Q2はA7、Q3はA9とそれぞれ一致している場合に、A5、A7、A9を抽出する。
抽出されたキーワード単語(または単語列)に対して、INDEXファイル22を参照し、各歌詞ファイルの中で、キーワード単語(または単語列)と音響的に最も類似する単語候補と、その音響類似距離値と、類似単語候補の位置情報を求めて類似度の演算を行い(ステップ105)、歌詞ファイルの選択を行う(ステップ106)。
Q1はA5、Q2はA7、Q3はA9とそれぞれ一致しているため、歌詞ファイルSiに対する検索クエリQ1、Q2、Q3の音響類似距離Diはd5i+d7i+d9iとなり、歌詞ファイルSiに対する類似単語候補列WiはW5i、W7i、W9iとなる。また、類似単語候補列W5i、W7i、W9iの歌詞ファイルSi中での出現位置情報Piはp5i、p7i、p9iとなる。
次に、検索文字列と検索にヒットした歌詞ファイルとの適合度を計算し、それに応じてランキングを行う(ステップ107)。
適合度の計算については、歌詞ファイルSiの適合度を1/(Di+0.1)とする単純な手法で行うことができる(Diは歌詞ファイルSiの音響類似距離値)。実際には歌詞ファイルの適合度を1/(Di+β)と定義し、βを0.1に設定することで計算する。
また、キーワード単語列に対する類似単語候補列Wiの出現位置情報Piを読み出した上で、類似単語候補列の検索単語列間隣接関係をチェックする。そして、音響類似距離Diの値に単語列間の隣接重みαi(隣接関係強い方は隣接重みαi値が高いと設定する)をつける。計算例を挙げると、Q1はA5、Q2はA7、Q3はA9とそれぞれ一致しており、歌詞ファイルSiに対する隣接重みαiが、下記の数2により計算できる。また、単語が一つしかない場合には、数2において、αi=1となる。
(数2)
αi=1/[(p7i-p5i)^2+(p9i-p7i)^2]
歌詞ファイルのランキングを行うランキング用適合度は、音響類似距離値Diに隣接重みαiや特徴量tf・idfを関連づけて算出される。計算例として、ランキング用適合度は、αi/(Di+0.1)+tf・idf’によって算出された値となる。また、Diの値は0の場合のみ、適合度にtf・idf’の値を加算する手段としてもよい。
そして、歌詞ファイルのランキングを行うに際に、歌詞データベースに格納された全ての歌詞ファイルのデータとの間で適合度を判断する。
ランキング用適合度値によって歌詞ファイルのランキングを行った後において、適合度の高い順で上位N位となる歌詞ファイル及びそれらの楽曲情報が検索結果として出力インタフェース3から出力する(ステップ108)。
上述した例では、INDEXファイル22を作成するに際して、歌詞ファイル毎に作成された単語リストLi20中の各単語において、キーワードAnとの音響類似距離を計算し、音響類似距離が一番近い単語Wni(歌詞ファイルSiにおいてAnと音響的に最も類似する単語)をそれぞれ抽出するようにしたが、音響類似距離が近い上位M個の単語候補(歌詞ファイルSiにおいてAnと音響的に最も類似する上位M個の単語)も抽出し、それらの音響類似距離値Diと隣接重みαiを保存しておくようにしてもよい。
この場合、歌詞ファイルSiにおいて、検索単語列を構成する検索単語となるキーワードに対して複数の類似単語が候補となるが、ランキング用適合度を算出する場合に、その候補のαi/(Di+0.1)+tf・idf’の値の中で一番高い値を歌詞ファイルSiに対するランキング用適合度とすればよい。
また、類似度の計算精度を高めるため、INDEXファイルによるランキング用適合度値の高い順で上位N個の検索対象歌詞ファイル候補を絞りこみ、そのN個候補の各歌詞ファイルの文字列と入力された検索文字列(上述した形態素解析前の入力されたフレーズ)を音素列に変換し、DPマッチングを計算する処理を行ってもよい。その計算結果となる距離値に基づいて適合度を計算し高い順にランキングすることで、より類似精度の高いランキング表示を行うことができる。
上記構成によれば、入力した検索文字列を構成する検索単語に類似する若しくは同じ単語がINDEXファイル22における単語リストAn(検索対象単語)に存在すれば、類似距離等の数値が既に演算済のデータとして登録されているので、この数値に基づいて類似度の演算の行うことで、類似テキスト検索の高速化が可能となる。
上記例では歌詞データを検索する文書データ検索装置について説明したが、歌詞データに限らず文書データ等のテキストに対しての類似テキスト検索に適用することができる。
なお、入力した単語がキーワードリストにない場合は、リアルタイムでその単語(または単語列)を音素列に変換し、各検索対象歌詞ファイルの音素列とのDPマッチングを計算し、その結果となる距離値を類似度として検索する。
本発明の文書データ検索装置の実施形態の一例を示す機能ブロック図である。 本発明の文書データ検索装置におけるINDEXファイル作成処理を説明するための説明図である。 本発明の文書データ検索装置における検索処理の一例を示すフローチャートである。
符号の説明
1…文書データ検索装置、 2…入力インタフェース、 3…出力インタフェース、4…歌詞データベース、 10…制御部、 11…単語抽出手段、 12…キーワード登録手段、 13…INDEXファイル作成手段、 14…類似度演算手段、 20…抽出単語リスト、 21…キーワードリスト、 22…INDEXファイル。

Claims (5)

  1. 検索文字列が入力される入力インタフェースを備え、前記検索文字列により複数の検索対象文書データから文書データの検索を行う検索装置において、
    予め複数の文書データを入力し前記文書データを構成する単語を抽出する単語抽出手段と、
    前記検索文字列に含まれる可能性のある検索単語をキーワードとしてリストに登録するキーワード登録手段と、
    前記単語抽出手段により抽出された抽出単語とキーワードに対して分解された読み仮名又は音素同士の比較から算出される音響類似距離値を用いて検索用INDEXファイルを作成するINDEXファイル作成手段と、
    入力された検索文字列から得られる検索単語に基づいて、前記INDEXファイルを参照して検索対象文書データの類似度を演算する類似度演算手段と、
    前記類似度に基づいた文書データの検索結果を出力する出力インタフェースと
    を具備したことを特徴とする文書データ検索装置。
  2. 前記INDEXファイル作成手段の音響類似距離値は、
    前記キーワードと抽出単語同士の編集距離を計算する手段によりそれぞれ読み仮名列に変換し、二つの読み仮名列において、音節を単位としたDPマッチングを行うことで、音節間の距離(違う音節間同士のペナルティ値),音節の挿入時のペナルティ値,音節の脱落時のペナルティ値それぞれに所望の数値を与える計算手段により計算する請求項1に記載の文書データ検索装置。
  3. 前記INDEXファイル作成手段の音響類似距離値は、
    前記キーワードと抽出単語同士の二つの音素列の編集距離を計算する手段によりそれぞれの読みを音素列に変換し、二つの音素列において、音素を単位としたDPマッチングを行うことで、音素間の距離(違う音素間同士のペナルティ値),音素の挿入時のペナルティ値,音素の脱落時のペナルティ値それぞれに所望の数値を与える計算手段により計算する請求項1に記載の文書データ検索装置。
  4. 前記INDEXファイル作成手段は、前記検索対象文書データから抽出された前記抽出単語の文書データ中における位置情報及び登場頻度をパラメータとした重要度情報を登録した検索用INDEXファイルを作成する請求項1乃至請求項3のいずれか1項に記載の文書データ検索装置。
  5. 前記出力インタフェースは、音響類似距離値に基づいて適合度を計算し、INDEXファイルによる検索文字列から得られる一つ又は複数の検索単語との適合度の高い順で検索結果を出力する手段を備えることにより、
    INDEXファイルによる検索文字列との適合度の高い順で上位N個の検索対象文書データ候補を絞り、前記N個候補における検索文字列の音素列と前記検索対象文書データ候補の文字列の音素列とのDPマッチングを計算し、その計算結果となる類似度により出力順位を決める請求項1に記載の文書データ検索装置。
JP2008297387A 2008-11-20 2008-11-20 文書データ検索装置 Expired - Fee Related JP5308786B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008297387A JP5308786B2 (ja) 2008-11-20 2008-11-20 文書データ検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008297387A JP5308786B2 (ja) 2008-11-20 2008-11-20 文書データ検索装置

Publications (2)

Publication Number Publication Date
JP2010123005A JP2010123005A (ja) 2010-06-03
JP5308786B2 true JP5308786B2 (ja) 2013-10-09

Family

ID=42324279

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008297387A Expired - Fee Related JP5308786B2 (ja) 2008-11-20 2008-11-20 文書データ検索装置

Country Status (1)

Country Link
JP (1) JP5308786B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5436307B2 (ja) * 2010-03-31 2014-03-05 Kddi株式会社 類似文書検索装置
JP5669707B2 (ja) * 2011-09-30 2015-02-12 Kddi株式会社 類似文書検索装置
CN105632499B (zh) 2014-10-31 2019-12-10 株式会社东芝 用于优化语音识别结果的方法和装置
CN106326484A (zh) 2016-08-31 2017-01-11 北京奇艺世纪科技有限公司 搜索词纠错方法及装置
US11163811B2 (en) * 2017-10-30 2021-11-02 International Business Machines Corporation Ranking of documents based on their semantic richness
CN110880329B (zh) * 2018-09-06 2022-11-04 腾讯科技(深圳)有限公司 一种音频识别方法及设备、存储介质
JP7228083B2 (ja) * 2019-01-31 2023-02-24 日本電信電話株式会社 データ検索装置、方法およびプログラム
EP4129742A4 (en) * 2020-03-30 2023-05-24 Mitsubishi Electric Corporation DATA EXTRACTION DEVICE, DATA EXTRACTION METHOD AND DATA EXTRACTION PROGRAM
JP7497384B2 (ja) 2022-03-29 2024-06-10 株式会社日立製作所 テキスト化支援装置及びテキスト化支援方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7542966B2 (en) * 2002-04-25 2009-06-02 Mitsubishi Electric Research Laboratories, Inc. Method and system for retrieving documents with spoken queries
JP2006004283A (ja) * 2004-06-18 2006-01-05 Nippon Telegr & Teleph Corp <Ntt> テキスト情報源からのキーワード抽出・絞り込み方法およびシステム
JP2006039954A (ja) * 2004-07-27 2006-02-09 Denso Corp データベース検索装置、プログラム及びナビゲーション装置
US8356065B2 (en) * 2005-12-12 2013-01-15 Nec Corporation Similar text search method, similar text search system, and similar text search program
JP5072415B2 (ja) * 2007-04-10 2012-11-14 三菱電機株式会社 音声検索装置

Also Published As

Publication number Publication date
JP2010123005A (ja) 2010-06-03

Similar Documents

Publication Publication Date Title
JP5308786B2 (ja) 文書データ検索装置
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
CN102236640B (zh) 命名实体的消歧
KR100760301B1 (ko) 부분 검색어 추출을 통한 미디어 파일 검색 방법 및 장치
JP5449521B2 (ja) 検索装置及び検索プログラム
EP1927927A2 (en) Speech recognition training method for audio and video file indexing on a search engine
CN109783806A (zh) 一种利用语义解析结构的文本匹配方法
JP6599219B2 (ja) 読み付与装置、読み付与方法、およびプログラム
CN111611372A (zh) 搜索结果的排序方法及装置、音乐搜索方法及装置
CN114706972A (zh) 一种基于多句压缩的无监督科技情报摘要自动生成方法
JPWO2010044123A1 (ja) 検索装置、検索用索引作成装置、および検索システム
JP5436307B2 (ja) 類似文書検索装置
CN111767733A (zh) 一种基于统计分词的文献密级甄别方法
Kobyliński et al. PolEval 2022/23 challenge tasks and results
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP2011128903A (ja) 系列信号検索装置および系列信号検索方法
JP2019003270A (ja) 学習装置、映像検索装置、方法、及びプログラム
JP2008059389A (ja) 語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラム
JP5669707B2 (ja) 類似文書検索装置
JPH117447A (ja) 話題抽出方法及びこれに用いる話題抽出モデルとその作成方法、話題抽出プログラム記録媒体
JP5744150B2 (ja) 発話生成装置、方法、及びプログラム
Arslan et al. Graph-based lemmatization of Turkish words by using morphological similarity
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JP2007011892A (ja) 語彙獲得方法及び装置及びプログラム及びプログラムを格納した記憶媒体
Bhagat et al. Phonetic Models for Generating Spelling Variants.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110822

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130403

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130612

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130701

R150 Certificate of patent or registration of utility model

Ref document number: 5308786

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees