JP5308786B2 - 文書データ検索装置 - Google Patents
文書データ検索装置 Download PDFInfo
- Publication number
- JP5308786B2 JP5308786B2 JP2008297387A JP2008297387A JP5308786B2 JP 5308786 B2 JP5308786 B2 JP 5308786B2 JP 2008297387 A JP2008297387 A JP 2008297387A JP 2008297387 A JP2008297387 A JP 2008297387A JP 5308786 B2 JP5308786 B2 JP 5308786B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- document data
- word
- index file
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
検索単語(文字列)として「ハリーポッター」を入力した場合を例に説明すると、音声データの認識結果には「ハリー」、「ポスター」、「は」、「リポーター」、などの単語候補がピックアップされる。このとき、単語候補を並べることで、検索文字列「ハリーポッター」と音響的に近い「ハリー」+「ポスター」、「は」+「リポーター」、などの単語列に展開する。この展開は、検索文字列と音響的な距離が近くなるように行われるため、検索文字列の認識結果となる可能性が高い単語列を誤認識も含めて求めることになる。
この場合、特許文献1の類似テキスト装置のように、文字列の編集距離の計算やNグラムのインデクシングを行っても、「無数」と「まっすぐ」とでは編集距離等が乖離しているため、目的とする楽曲の情報(歌詞文)の検索は不可能である。
単語抽出手段。この単語抽出手段は、予め複数の文書データを入力し前記文書データを構成する単語を抽出するものである。
キーワード登録手段。このキーワード登録手段は、前記検索文字列に含まれる可能性のある検索単語をキーワードとしてリストに登録するものである。
INDEXファイル作成手段。このINDEXファイル作成手段は、前記単語抽出手段により抽出された抽出単語とキーワードに対して分解された読み仮名又は音素同士の比較から算出される音響類似距離値を用いて検索用INDEXファイルを作成するものである。
類似度演算手段。この類似度演算手段は、入力された検索文字列から得られる検索単語に基づいて、前記INDEXファイルを参照して入力された検索単語による検索対象文書データの類似度を演算するものである。
出力インタフェース。この出力インタフェースは、前記類似度に基づいた文書データの検索結果を出力するものである。
前記INDEXファイル作成手段の音響類似距離値は、
前記キーワードと抽出単語同士の編集距離を計算する手段によりそれぞれ読み仮名列に変換し、二つ読み仮名列において、音節を単位としたDPマッチングを行うことで、音節間の距離(違う音節間同士のペナルティ値),音節の挿入時のペナルティ値,音節の脱落時のペナルティ値それぞれに所望の数値を与える計算手段により計算することを特徴としている。
前記INDEXファイル作成手段の音響類似距離値は、
前記キーワードと抽出単語同士の二つの音素列の編集距離を計算する手段によりそれぞれの単語の読みを音素列に変換し、二つ音素列において、音素を単位としたDPマッチングを行うことで、音素間の距離(違う音素間同士のペナルティ値),音素の挿入時のペナルティ値,音素の脱落時のペナルティ値それぞれに所望の数値を与える計算手段により計算することを特徴としている。
前記INDEXファイル作成手段は、前記検索対象文書データから抽出された前記抽出単語の文書データ中における位置情報及び登場頻度をパラメータとした重要度情報を登録したファイルを作成することを特徴としている。
前記出力インタフェースは、音響類似距離値に基づいて適合度を計算し、INDEXファイルによる検索文字列から得られる一つ又は複数の検索単語との適合度の高い順で検索結果を出力する手段を備えることにより、
INDEXファイルによる検索文字列との適合度の高い順で上位N個の検索対象文書データ候補を絞り、前記N個候補における検索文字列の音素列と前記検索対象文書データ候補の文字列の音素列とのDPマッチングを計算し、その計算結果を類似度として出力順位を決めることを特徴としている。
音響類似距離値に基づいて計算される適合度は、例えば、音響類似距離値に任意の数を加算した数値の逆数を含んだ値とする。
また、本発明のINDEXファイルの作成段階において、事前に検索キーワードと検索対象となる単語の音響類似距離を計算しておくため、検索時に音響類似距離の計算が不要となり、検索の時間を削減することできるので、類似テキスト検索における高速化が可能となる。
文書データ検索装置1は、楽曲の歌詞を検索する装置に適用した例であり、歌詞の一部のフレーズ等を検索文字列として入力する入力インタフェース2と、歌詞データ(文書データ)の検索結果を出力する出力インタフェース3と、検索対象となる複数の歌詞データ(歌詞ファイル)が格納された歌詞データベース4と、入力インタフェース2に入力された検索文字列から歌詞データベース4に格納されている歌詞データの検索処理を行う制御部10を有して構成されている。
以下、制御部10におけるINDEXファイルの作成手順について、図2を参照しながら説明する。
INDEXファイル作成手段の音響類似距離値は、キーワード(検索単語)と抽出単語(検索対象単語)同士の読み仮名の編集距離を計算する手段、又は、単語同士の二つ音素列の編集距離を計算する手段により単語の読みを読み仮名又は音素列に変換し、DPマッチングを行うことで類似距離値を求めるものである。
DPマッチングは、系列になっているデータ同士の類似度を計算する方法であり、以下、具体的なDPマッチング計算例に基づいて説明する。
DPマッチングにおいては、「字が合わなければ1点」、「字が一つずれること(挿入や脱落)で1点」というペナルティを決めておく。
また、6文字の「しんおおさか」と、4文字の「おおさか」との比較については、「字が2個ずれた・停滞した」と考えて、「しんおおさか」と「おおおおさか」との比較と考え、字ずれ2個の部分が「1×2=2」で、不一致2個の部分が「1×2=2」で、正規化後のペナルティは(2+2)/6=0.667点になる。DPマッチングでは、ペナルティの値が小さいほど類似性が高いと設定するため、検索単語が「おおさか」である場合、「しんおおさか」よりも「おおつか」の方を似ていると判断する。
また、「おおさか」「しんおおさか」について音素列同士で比較する場合は、「O」「O」「S」「A」「K」「A」と、「S」「I」「N」「O」「O」「S」「A」「K」「A」との比較となる。「O」「O」「O」「O」「O」「S」「A」「K」「A」と「S」「I」「N」「O」「O」「S」「A」「K」「A」と考えて、ずれが3個で3×1=3、相違は3個で3×1=3、正規化後のペナルティは(3+3)/9=0.667点になる。音素レベルでは、検索単語が「おおさか」である場合、「しんおおさか」よりも「おおつか」の方を似ていると判断する。
例えば、音素間の距離値について、認識時に使用した音素音響モデルのモデル間距離値を使用しても良い。この場合、各音素を表す音響モデルの確率分布間のマハラノビス距離によって音素間の距離値を定義することができる。各音素の音響モデルが1状態かつ単一ガウス分布でモデル化されているとき、2つのモデル間のマハラノビス距離ADij(音素i とj)は、下記の数1で表される。
KはMFCC (Mel-Frequency Cepstrum Coefficient) ベクトルの次元数(K=12)、
μikおよびσikは、それぞれ音素iの平均および分散MFCCベクトルのk次元目の要素である。
表1は、入力音素a、i、u、e、o、・・がそれぞれa、i、u、e、o、・・と聞こえる確率を行列で表したものである。例えば、音素aがaと聞こえる確率は0.9、iと聞こえる確率は0.2、uと聞こえる確率は0.3、・・・などのことが示される。音素混同行列の確率の逆数を音素間距離として定義することができる。
重要度情報は、検索対象単語が歌詞データ中でどのくらい重要な指標を持つかを評価する特徴量tf・idfと定義し、tfをある歌詞データの中の検索対象単語の出現頻度、idfをlog (検索対象全文書数/検索対象単語を含む文書の数) とした場合に、特徴量tf・idf はこれらの積であるtf・id fで算出される。
また、特徴量tf・idfの値を0〜1.0の値に正規化するため、以下の計算を行う。歌詞ファイルSiの単語Wniのtf・idf値はtf・ idfni,Σtf・idfiはSiの全単語のtf・idf値の総和とする。正規化後のWniのtf・idf’ni=tf・idfni/Σtf・idfi。
先ず、ユーザが聞き覚えのある単語の集合である文字列(歌詞文やフレーズ)を検索文字列として入力インタフェース2に入力する(ステップ101)。
入力された検索文字列は、制御部10において、INDEXファイル作成の際に使用したのと同じ形態素解析が行われ(ステップ102)、解析結果となった検索クエリ単語リストQ1,…,Qmの単語列を抽出する(ステップ103)。
次に、検索クエリ単語リストをINDEXファイル22のキーワードリストに照合し(ステップ104)、一致とされたキーワードA1〜Anを抽出する。例えば、検索クエリ単語リストにQ1、Q2、Q3があり、Q1はA5、Q2はA7、Q3はA9とそれぞれ一致している場合に、A5、A7、A9を抽出する。
Q1はA5、Q2はA7、Q3はA9とそれぞれ一致しているため、歌詞ファイルSiに対する検索クエリQ1、Q2、Q3の音響類似距離Diはd5i+d7i+d9iとなり、歌詞ファイルSiに対する類似単語候補列WiはW5i、W7i、W9iとなる。また、類似単語候補列W5i、W7i、W9iの歌詞ファイルSi中での出現位置情報Piはp5i、p7i、p9iとなる。
適合度の計算については、歌詞ファイルSiの適合度を1/(Di+0.1)とする単純な手法で行うことができる(Diは歌詞ファイルSiの音響類似距離値)。実際には歌詞ファイルの適合度を1/(Di+β)と定義し、βを0.1に設定することで計算する。
また、キーワード単語列に対する類似単語候補列Wiの出現位置情報Piを読み出した上で、類似単語候補列の検索単語列間隣接関係をチェックする。そして、音響類似距離Diの値に単語列間の隣接重みαi(隣接関係強い方は隣接重みαi値が高いと設定する)をつける。計算例を挙げると、Q1はA5、Q2はA7、Q3はA9とそれぞれ一致しており、歌詞ファイルSiに対する隣接重みαiが、下記の数2により計算できる。また、単語が一つしかない場合には、数2において、αi=1となる。
αi=1/[(p7i-p5i)^2+(p9i-p7i)^2]
そして、歌詞ファイルのランキングを行うに際に、歌詞データベースに格納された全ての歌詞ファイルのデータとの間で適合度を判断する。
ランキング用適合度値によって歌詞ファイルのランキングを行った後において、適合度の高い順で上位N位となる歌詞ファイル及びそれらの楽曲情報が検索結果として出力インタフェース3から出力する(ステップ108)。
この場合、歌詞ファイルSiにおいて、検索単語列を構成する検索単語となるキーワードに対して複数の類似単語が候補となるが、ランキング用適合度を算出する場合に、その候補のαi/(Di+0.1)+tf・idf’の値の中で一番高い値を歌詞ファイルSiに対するランキング用適合度とすればよい。
上記例では歌詞データを検索する文書データ検索装置について説明したが、歌詞データに限らず文書データ等のテキストに対しての類似テキスト検索に適用することができる。
Claims (5)
- 検索文字列が入力される入力インタフェースを備え、前記検索文字列により複数の検索対象文書データから文書データの検索を行う検索装置において、
予め複数の文書データを入力し前記文書データを構成する単語を抽出する単語抽出手段と、
前記検索文字列に含まれる可能性のある検索単語をキーワードとしてリストに登録するキーワード登録手段と、
前記単語抽出手段により抽出された抽出単語とキーワードに対して分解された読み仮名又は音素同士の比較から算出される音響類似距離値を用いて検索用INDEXファイルを作成するINDEXファイル作成手段と、
入力された検索文字列から得られる検索単語に基づいて、前記INDEXファイルを参照して検索対象文書データの類似度を演算する類似度演算手段と、
前記類似度に基づいた文書データの検索結果を出力する出力インタフェースと
を具備したことを特徴とする文書データ検索装置。 - 前記INDEXファイル作成手段の音響類似距離値は、
前記キーワードと抽出単語同士の編集距離を計算する手段によりそれぞれ読み仮名列に変換し、二つの読み仮名列において、音節を単位としたDPマッチングを行うことで、音節間の距離(違う音節間同士のペナルティ値),音節の挿入時のペナルティ値,音節の脱落時のペナルティ値それぞれに所望の数値を与える計算手段により計算する請求項1に記載の文書データ検索装置。 - 前記INDEXファイル作成手段の音響類似距離値は、
前記キーワードと抽出単語同士の二つの音素列の編集距離を計算する手段によりそれぞれの読みを音素列に変換し、二つの音素列において、音素を単位としたDPマッチングを行うことで、音素間の距離(違う音素間同士のペナルティ値),音素の挿入時のペナルティ値,音素の脱落時のペナルティ値それぞれに所望の数値を与える計算手段により計算する請求項1に記載の文書データ検索装置。 - 前記INDEXファイル作成手段は、前記検索対象文書データから抽出された前記抽出単語の文書データ中における位置情報及び登場頻度をパラメータとした重要度情報を登録した検索用INDEXファイルを作成する請求項1乃至請求項3のいずれか1項に記載の文書データ検索装置。
- 前記出力インタフェースは、音響類似距離値に基づいて適合度を計算し、INDEXファイルによる検索文字列から得られる一つ又は複数の検索単語との適合度の高い順で検索結果を出力する手段を備えることにより、
INDEXファイルによる検索文字列との適合度の高い順で上位N個の検索対象文書データ候補を絞り、前記N個候補における検索文字列の音素列と前記検索対象文書データ候補の文字列の音素列とのDPマッチングを計算し、その計算結果となる類似度により出力順位を決める請求項1に記載の文書データ検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008297387A JP5308786B2 (ja) | 2008-11-20 | 2008-11-20 | 文書データ検索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008297387A JP5308786B2 (ja) | 2008-11-20 | 2008-11-20 | 文書データ検索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010123005A JP2010123005A (ja) | 2010-06-03 |
JP5308786B2 true JP5308786B2 (ja) | 2013-10-09 |
Family
ID=42324279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008297387A Expired - Fee Related JP5308786B2 (ja) | 2008-11-20 | 2008-11-20 | 文書データ検索装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5308786B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5436307B2 (ja) * | 2010-03-31 | 2014-03-05 | Kddi株式会社 | 類似文書検索装置 |
JP5669707B2 (ja) * | 2011-09-30 | 2015-02-12 | Kddi株式会社 | 類似文書検索装置 |
CN105632499B (zh) | 2014-10-31 | 2019-12-10 | 株式会社东芝 | 用于优化语音识别结果的方法和装置 |
CN106326484A (zh) | 2016-08-31 | 2017-01-11 | 北京奇艺世纪科技有限公司 | 搜索词纠错方法及装置 |
US11163811B2 (en) * | 2017-10-30 | 2021-11-02 | International Business Machines Corporation | Ranking of documents based on their semantic richness |
CN110880329B (zh) * | 2018-09-06 | 2022-11-04 | 腾讯科技(深圳)有限公司 | 一种音频识别方法及设备、存储介质 |
JP7228083B2 (ja) * | 2019-01-31 | 2023-02-24 | 日本電信電話株式会社 | データ検索装置、方法およびプログラム |
EP4129742A4 (en) * | 2020-03-30 | 2023-05-24 | Mitsubishi Electric Corporation | DATA EXTRACTION DEVICE, DATA EXTRACTION METHOD AND DATA EXTRACTION PROGRAM |
JP7497384B2 (ja) | 2022-03-29 | 2024-06-10 | 株式会社日立製作所 | テキスト化支援装置及びテキスト化支援方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7542966B2 (en) * | 2002-04-25 | 2009-06-02 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for retrieving documents with spoken queries |
JP2006004283A (ja) * | 2004-06-18 | 2006-01-05 | Nippon Telegr & Teleph Corp <Ntt> | テキスト情報源からのキーワード抽出・絞り込み方法およびシステム |
JP2006039954A (ja) * | 2004-07-27 | 2006-02-09 | Denso Corp | データベース検索装置、プログラム及びナビゲーション装置 |
US8356065B2 (en) * | 2005-12-12 | 2013-01-15 | Nec Corporation | Similar text search method, similar text search system, and similar text search program |
JP5072415B2 (ja) * | 2007-04-10 | 2012-11-14 | 三菱電機株式会社 | 音声検索装置 |
-
2008
- 2008-11-20 JP JP2008297387A patent/JP5308786B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010123005A (ja) | 2010-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5308786B2 (ja) | 文書データ検索装置 | |
CN108304375B (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
CN102236640B (zh) | 命名实体的消歧 | |
KR100760301B1 (ko) | 부분 검색어 추출을 통한 미디어 파일 검색 방법 및 장치 | |
JP5449521B2 (ja) | 検索装置及び検索プログラム | |
EP1927927A2 (en) | Speech recognition training method for audio and video file indexing on a search engine | |
CN109783806A (zh) | 一种利用语义解析结构的文本匹配方法 | |
JP6599219B2 (ja) | 読み付与装置、読み付与方法、およびプログラム | |
CN111611372A (zh) | 搜索结果的排序方法及装置、音乐搜索方法及装置 | |
CN114706972A (zh) | 一种基于多句压缩的无监督科技情报摘要自动生成方法 | |
JPWO2010044123A1 (ja) | 検索装置、検索用索引作成装置、および検索システム | |
JP5436307B2 (ja) | 類似文書検索装置 | |
CN111767733A (zh) | 一种基于统计分词的文献密级甄别方法 | |
Kobyliński et al. | PolEval 2022/23 challenge tasks and results | |
JP5447368B2 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
JP2011128903A (ja) | 系列信号検索装置および系列信号検索方法 | |
JP2019003270A (ja) | 学習装置、映像検索装置、方法、及びプログラム | |
JP2008059389A (ja) | 語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラム | |
JP5669707B2 (ja) | 類似文書検索装置 | |
JPH117447A (ja) | 話題抽出方法及びこれに用いる話題抽出モデルとその作成方法、話題抽出プログラム記録媒体 | |
JP5744150B2 (ja) | 発話生成装置、方法、及びプログラム | |
Arslan et al. | Graph-based lemmatization of Turkish words by using morphological similarity | |
KR20040018008A (ko) | 품사 태깅 장치 및 태깅 방법 | |
JP2007011892A (ja) | 語彙獲得方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
Bhagat et al. | Phonetic Models for Generating Spelling Variants. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110822 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130403 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130523 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130612 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130701 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5308786 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |