JP5590549B2

JP5590549B2 - 音声検索装置および音声検索方法

Info

Publication number: JP5590549B2
Application number: JP2010038011A
Authority: JP
Inventors: 聖一中川
Original assignee: Toyohashi University of Technology NUC
Current assignee: Toyohashi University of Technology NUC
Priority date: 2010-02-23
Filing date: 2010-02-23
Publication date: 2014-09-17
Anticipated expiration: 2030-02-23
Also published as: JP2011175046A

Description

本発明は、音声およびテキスト入力により、音声データから所望する音声を検出する音声検索装置および音声検索方法に関するものである。

インターネット上には、ニュース音声、動画投稿、ポッドキャスト（これらを音声ドキュメントと称する）など、音声情報が多量に存在し、その量は年々増加している。また、会議音声や講義音声、コールセンター音声など、個別組織で保有している音声データも増加している。このような膨大な音声データから、ユーザの欲する情報を高速に、正しく検出することが要求されている。また、検索要求語は、固有名詞や新しい造語（例：豚インフルエンザ）などが多く、既存の大規模辞書に存在しない単語が多い。従来のテキスト検索法では、このような単語でも文字列として正しく表現されているので、検索語を文字列で入力すれば、正しく検索されることが多く問題は少ない。

一方、音声ドキュメントに対しては、通常は大語彙連続音声認識器で音声を単語列に変換後、テキスト検索技術を利用するのが最も簡単な方法であるが、もともと認識辞書（通常は2万語から十万語）に存在しない単語（未知語）は検索できない。また、音声認識誤りも多く、通常のテキスト検索では、検索できない。

音声ドキュメント中の未知語の検索語に対しては、認識辞書を大きくし、未知語を減らす方法がある（例えば、非特許文献１）。しかし、固有名詞などすべてを辞書として登録することは不可能であり、また、辞書を大きくしても認識誤りは避けられず、特に出現頻度の少ない単語は認識誤りが生じやすく、認識誤りの問題は解決されない。

そこで、未知語に対しては、音声認識技術によって、音声ドキュメントを音声言語の基本単位である音素・音節（他の基本単位もありうる）などの記号列に変換後、これらの記号列で表現された記号列とのマッチングを行うのが基本である（例えば、非特許文献２）。この音素・音節列への認識誤りに対処するために複数候補の認識結果を効率よくグラフ構造で表し、これに対して検索するのが普通である（例えば、特許文献１および非特許文献３）。これと検索語の音素・音節列のマッチングの高速化方法には、様々な工夫が行われているが（非特許文献３および４）、検索対象の音声ドキュメント量に比例して時間がかかるという問題がある。

特開２００９−２７１１１７公報

栗城吾央、伊藤慶明、小嶋和徳、石亀昌明、田中和世：Web上の語彙を利用したクエリ格調による検索語検出、電子情報通信学会、音声技報、SP2009-84 (2009.12) 堀貴明、他：コンヒュージョンネットワークを用いたオープン語彙発話検索、日本音響学会講演論文集、1-3-10 (2007.9) 伊藤慶明、他：語彙のない音声文書検索における複数サブワードの統合、情報処理が会論文誌、 Vol.50, No.2, pp.524-533 (2009.2) 神田直之、住吉貴志、戸上真人、大淵康成：任意語彙音声発話検索のための多段階リスコアリング手法の性能評価、第２回音声ドキュメント処理ワークショップ論文集、pp.73-78 (2008.2)

大量の音声ドキュメントに対して、未知語に頑健な高速な検索が望まれているが、上記に示したように、従来法は、音声認識技術によって、音声ドキュメントを音声言語の基本単位である音素・音節などの記号列に変換後、これらの記号列で表現された記号列とのマッチングを行うのが基本である。この認識誤りに対処するために複数候補の認識結果を効率よくグラフ構造で表し、これに対して検索するのが従来法である。

しかし、検索対象の音声ドキュメント量に比例して時間がかかるのと認識結果の複数候補に存在しない認識誤りは対処できないという問題があった。

この問題に対処する方法として、二つの方法が提案されている。一つは、音素の記号列を転置インデックス法でインデックス化しておき、検索時に、置換誤りなどの認識誤りを考慮しながら、インデックステーブルを探索する方法である。この方法で高速化が可能となっているが、インデックスの探索に時間が要する問題があった。

もう一つの方法は、音素・音節列の認識誤りを考慮して、インデックス化しておく方法である。これによって、高速に検索できるが、検索要求語が過剰に検出されることが多いため、検出された箇所に対して、従来法で、詳細に記号列同士の照合を行い、候補を絞っている。この手法は、詳細な照合部分が、音声ドキュメントの時間長に比例して、時間がかかるという問題があった。

従来技術における上記課題を解決するために、発明者は以下の特徴を有する音声検索装置および音声検索方法を発明した。

請求項１に記載の音声検索装置は、
音声あるいはテキストによる検索語入力部と、検索対象の連続音声データベース格納部と、
前記入力部と前記データベース格納部からの音声データを認識する大語彙連続音声認識部と、
前記大語彙連続音声認識部の認識結果を格納する連続音声データ認識結果格納部と、
前記連続音声データベースにおいて未知語に索引を付与する未知語インデックス作成部と、
未知語の音声データに対して音声の基本単位である音素あるいは音節に分割し認識する音素・音節認識部と、
前記音素・音節認識部の認識結果を格納する音素・音節データ格納部と、
少なくとも一つ以上の検索候補を提示する音素・音節列検索部と、を備えた音声検索装置であって、前記音素・音節認識部は、前記索引が付与された未知語に対して複数の検出候補を生成する機能を具備することを特徴とする。

請求項２に記載の音声検索装置は、
請求項１に記載の音声検索装置であって、
前記音素・音節認識部は、少なくとも一つ以上の認識結果候補から置換誤りと挿入誤りを想定し、前記認識結果を索引として付与し、検出候補を提示する機能を具備することを特徴とする。

請求項３に記載の音声検索装置は、
請求項１または請求項２に記載の音声検索装置であって、
前記音素・音節認識部は、少なくとも一つ以上の認識結果候補から脱落誤りを想定し、前記脱落誤りを検索語で想定し、索引として付与し、検出候補を提示する機能を具備することを特徴とする。

請求項４に記載の音声検索装置は、
請求項３に記載の音声検索装置であって、
前記音素・音節認識部は、少なくとも一つ以上の認識結果候補から置換誤りと挿入誤りおよび／または脱落誤りを想定し、前記誤りの認識を索引として付与し、分割された検索語の情報を用いて得られた検出候補から、事前に設定された閾値を基準として検出候補を選別する機能を具備することを特徴とする。

請求項５に記載の音声検索装置は、
請求項１乃至請求項４に記載の音声検索装置であって、
前記音素・音節認識部は、少なくとも一つ以上の認識結果候補に対して、音素間および音節間のバタチャリヤ距離を用いて索引を付与し、
第１の認識結果候補との音響的類似度に基づいて、第２の認識結果候補あるいは第３の認識結果候補との距離により検出候補を提示する機能を具備すること音素・音節認識部を特徴とする。なお、音素間および音節間の距離の定義は、種々考えられ、通常は、認識システムで使用する尺度と対応するものを使用する。

請求項６に記載の音声検索装置は、
請求項１乃至請求項５に記載の音声検索装置であって、
前記音素・音節認識部は、少なくとも一つ以上の認識結果候補に対して、数１で定義する対数尤度を用いて索引を付与し、

認識結果の対数尤度に基づいて、検出候補を提示する機能を具備することを特徴とする。

請求項７に記載の音声検索方法は、
音声あるいはテキストによる検索語入力ステップと、検索対象の連続音声データベース格納ステップと、前記入力部と前記データベース格納部からの音声データを認識する大語彙連続音声認識ステップと、
前記大語彙連続音声認識部の認識結果を格納する連続音声データ認識結果格納のステップと、
前記連続音声データベースにおいて未知語に索引を付与する未知語インデックスのステップと、
未知語の音声データに対して音声の基本単位である音素あるいは音節に分割し認識する音素・音節認識ステップと、
前記音素・音節認識部の認識結果を格納する音素・音節認識結果格納のステップと、
少なくとも一つ以上の検索候補を提示する音素・音節検索ステップと、を備えた音声検索方法であって、
前記音素・音節認識ステップは、前記索引が付与された未知語に対して複数の検出候補を生成する機能を有することを特徴とする。

請求項８に記載の音声検索方法は、
請求項７に記載の音声検索方法であって、
前記音素・音節認識ステップは、少なくとも一つ以上の認識結果候補から置換誤りと挿入誤りを想定し、前記認識を索引として付与し、検出候補を提示する機能を有することを特徴とする。

請求項９に記載の音声検索方法は、
請求項７または請求項８に記載の音声検索方法であって、
前記音素・音節認識ステップは、少なくとも一つ以上の認識結果候補から脱落誤りを想定し、前記脱落誤りの認識を検索語で想定し、索引として付与し、検出候補を提示する機能を有することを特徴とする。

請求項１０に記載の音声検索方法は、
請求項９に記載の音声検索方法であって、
前記音素・音節認識ステップは、少なくとも一つ以上の認識結果候補から置換誤りと挿入誤りおよび／または脱落誤りを想定し、前記誤りの認識を索引として付与し、分割された検索語の情報を用いて得られた検出候補から、事前に設定された閾値を基準として検出候補を選別する機能を有することを特徴とする。

請求項１１に記載の音声検索方法は、
請求項７乃至請求項１０に記載の音声検索方法であって、
前記音素・音節認識ステップは、少なくとも一つ以上の検出候補に対して、音素間および音節間のバタチャリヤ距離を用いて索引を付与し、
第１の検出候補との音響的類似度に基づいて、第２の検出候補あるいは第３の検出候補との距離により検出候補を提示する機能を有することを特徴とする。なお、音素間および音節間の距離の定義は、種々考えられ、通常は、認識システムで使用する尺度と対応するものを使用する。

請求項１２に記載の音声検索方法は、
請求項７乃至請求項１１に記載の音声検索方法であって、
前記音素・音節認識ステップは、少なくとも一つ以上の検出候補に対して、数１で定義する対数尤度を用いて索引を付与し、

認識結果の対数尤度に基づいて、検出候補を提示する機能を有することを特徴とする。

以上から、既知語に対しては、大語彙連続音声認識によって単語列に変換され、未知語や認識誤り単語に対しては、音素・音節認識によって単語よりも基本単位の音素列や音節列を認識することから、辞書に存在しない未知語あるいは認識誤りを含む大量の音声データから、音声およびテキスト入力による音声検索装置および音声検索方法を提供できるようになる。
また、分割された検索情報を用いて検索候補を提示する場合は、事前に設定する閾値を基準に検出候補を選別することにより、検索効率を向上させることができる。

音声検索装置のブロック図（ａ）および音声検索方法のアルゴリズムを説明するブロック図（ｂ）である。トライグラムアレイの作成手順を示す説明図である。置換誤りを含む場合のトライグラムアレイの作成手順を示す説明図である。挿入誤りを含む場合のトライグラムアレイの作成手順を示す説明図である。検索語のトライグラムへの分割を示す説明図である。脱落誤りを含む場合のトライグラムアレイの作成手順を示す説明図である。挿入誤り対策と脱落誤り対策の併用による置換誤り対策を示す説明図である。トライグラムアレイの内部表現を示す説明図である。

本発明は、認識誤りや未知語を含む大量の音声データベースに対し、高速に音声を検索できる手段を提供する。

具体的な構成は、既知語に対しては、従来法の大語彙認識装置で単語列に変換してから、通常のテキスト検索法で検索する。一方、未知語や認識誤り単語に対しては、単語よりも基本単位である音節列とか音素列の認識を行い、この結果に対して検索を行う。未知語は音素列や音節列に正しく認識できないので、認識誤りがあると想定する。認識誤りには、置換誤り・挿入誤り・脱落誤りがある。置換誤りに対しては、複数候補の認識結果を用いる。これだけでは、対処が不十分な場合は、次の挿入誤り対策と脱落誤り対策の併用で、対処可能である。挿入誤りに対しては、認識結果の挿入を考慮して検索する。脱落誤りに対しては、検索語の音素・音節列の方を脱落させて対処する。

検索対象の音声データベースに対しては、オフラインで予め認識を行い、その結果に対して、誤りを考慮したｎ音素・音節、例えば３音節の場合、３つ組アレイ（以下、トライグラムアレイという）を構成し、これに、この認識結果の位置と認識誤りの程度を示す距離もしくは尤度をつけてインデックスとして辞書順に記憶しておく。検索語に対して、単語を３音節単位に分割して、トライグラムアレイのインデックスを２分探索法などで検索し、分割して検索した結果を統合して、最終検索結果を出力する。この方法によって、従来法と比べて検索精度を落とすことなく、高速に検索できる。１万時間の音声データに対して、検索時間は１秒以内である。トライグラムアレイのインデックスの記憶量も、もとの音声ファイルデータ量よりも少なく、実用的である。

本装置への検索語の入力は、テキスト入力と音声入力の両方が可能である。音声入力の場合は、大語彙連続音声認識装置または音素・音節連続音声認識装置によりテキストに変換する。後者の認識誤りに対しては、検索対象音声データの音声認識誤り対策と同じ手法で対処する。

本発明の中核は、認識誤りに対応する距離もしくは尤度を、インデックスに付随させておき、検索文字列との詳細な照合を実行せずに、同等の性能で超高速に検索を可能とすることである。

本発明に係る実施形態について、図を用いて説明を行う。以下は、単なる説明例であって、実施の詳細について、前記説明例および図に限定されるものではない。

本発明による音声ドキュメントの検索装置のブロック図および全体の処理の流れを図１に示す。まず、オフラインで行う音声ドキュメントの認識およびインデックス化について説明する。

検索対象の音声ドキュメントデータの格納部（ア）から検索対象音声を取り出し、既知語検索のための大語彙連続音声認識装置（イ）により大語彙連続音声認識を行い、単語列に変換し、大語彙連続音声認識結果の格納部（ウ）に格納する（Ｓ３）。既知語の単語列の認識結果に対しては、既知語検索のためのインデックス作成部（エ）において、転置インデックスのデータ構造で、単語とその出現位置をテーブル化しておく。

また、これと並行して、認識誤り単語・未知語検索のための音素・音節認識部（オ）において、音声の基本認識単位である音素とか音節の列にも認識しておく。特に、音素・音節の認識は困難なので、複数の認識候補を出力し、ラティスの形式で出力し（この出力形式には任意性がある）、音素・音節認識結果の格納部（カ）に格納しておく（以上、Ｓ４）。認識誤り単語・未知語検索のための音素・音節列の認識結果に対しても、未知語・認識誤り単語の検索のための音素・音節のインデックス作成部（キ）において既知語と同様にインデックス化し、テーブル化しておくが、次の方法でインデックス化する。

音素・音節列を連続するｎ個を単位（以下、nグラムと呼ぶ）で、そのnグラムと音素・音節列の認識結果中にそれが存在する先頭位置および距離をインデックスとし、表にまとめる。音声ドキュメントの最初から最後まで、１音素・音節ずつずらしながらnグラムを作成していく。文探索で高速に検索できるように、辞書順に並べておく（以上、Ｓ５）。

上記Ｓ５の手順を図２の例を用いて説明する。この例は、認識候補が一つだけの場合である。第１候補の音素・音節認識結果だけを用いて作成したｎグラムは、距離を０とする。

説明の簡単化のため、n＝３とする。音声ドキュメントの最初の音節単位の３グラム（トライグラム）は「ｆｕｕｒｉ」で先頭位置は０であるから、インデックスは０、距離は０、挿入誤りは０とする。次の３グラム（トライグラム）は「ｕｒｉｅ」で、インデックスは１、距離は０、挿入誤りは０となる。以下同様な操作を実行する。これを音声ドキュメントの最後まで実行した後、トライグラムを辞書順に並べる。同じトライグラムが複数箇所に存在するときは、辞書順に並べたときは、同じトライグラムが複数個並ぶ。このような同じトライグラムが続く場合の記憶方法の変形は種々存在する。たとえば、同じトライグラムが並ぶ場合は、一つだけで代表させ、あとは、別の表に保存する方法が考えられる。

図３は置換誤り対策のために、複数候補の認識結果を用いる場合を示している。ここでは、音節の認識候補数は３個とする。図２と同じようにトライグラムのインデックスを作成していくが、図３の例で示すようにトライグラムの先頭が第１候補、真ん中を第２候補、最後尾を第３候補として選んでトライグラムを作成する場合を示している。この場合の距離は、第１候補からの距離の和として求める。すなわち、ｄ(ｅ，ｕ)+ｄ(ｋｉ，ｒｉ)である。ここで、ｄ（音節ｉ，音節ｊ）は、音節ｉと音節ｊの距離を示している。この音節間同士の距離は、あらかじめ定義しておき、表に格納しておく。前記音素・音節間の距離はバタチャリヤ距離で定義される。音節aと音節bの距離は、数２のように示される。

（バタチャリヤ距離）

バタチャリヤ距離は、多次元正規分布間の距離を表わすもので、音節のモデルは複数個の正規分布の和からなるＭ個の状態で表わされる。

またこの例では挿入誤りはないので０である。このように、複数の認識結果の候補を考慮して、すべての組み合わせでトライグラムのインデックスを作成していく。

図４は、挿入誤り対策の例を示している。簡単のために第１候補だけの認識結果を示している。この系列に対して、挿入誤りを仮定してトライグラムのインデックスを作成していく。図４の例は、位置１の認識結果「ｋｕ」が挿入誤りと仮定し、この音節を飛ばしてトライグラムを作成した「ｆｕｕｒｉ」の例を示している。この場合は、挿入誤りを仮定して作成したので、挿入の欄は、１となる。挿入誤りは無制限に仮定するのではなく、実際の音声認識装置の挿入誤り傾向に合致させる。たとえば、３音節のうち１音節が挿入されうるとする。

実際は、置換誤りも挿入誤りにも同時に対処するので、複数候補の認識結果に対して図３と図４の操作をすべて行う。

以上の方法で、検索対処の音声ドキュメントをオフラインで、インデックス化しておく。これに対して、検索語をオンラインでの検索について説明する。

タイピング入力または音声入力される検索単語の入力部（ク）（Ｓ１）からの検索語が、既知語の場合は（Ｓ２）、既知語のための検索部（ケ）により、通常のテキスト検索技術を用いて検索し（Ｓ６）、検索結果を得る（Ｓ７）。既知語の検索結果は、既知語の検索結果表示部（サ）によりユーザに対して表示される。

一方、検索語が未知語の検索の場合（音声認識用の辞書に入ってない場合）には（Ｓ２）、未知語・認識誤り単語のための検索部（コ）により音素・音節列に変換し（Ｓ８）、ｎ連続単位（すなわち、ｎグラム）ごとに分割し（ここでは、ｍ分割されたとする）、それぞれのｎグラム単位で独立に、音声ドキュメントが上述の方法によりnグラム単位でインデックス化されているインデックステーブルを２分探索法で高速に検索し（Ｓ９）、検索件を得る（Ｓ１０）。未知語・認識誤り単語の検索結果は、未知語・認識誤り単語の検索結果の表示部（シ）によりユーザに対して表示される。

上記の未知語・認識誤り単語の高速検索には、種々の変形が考えられる。たとえば、検索単位がトライグラムという固定長に限定しているので、与えられたトライグラムが表のどこに存在するか、一対一に対応させる計算法や表を用いることもできる。検索された結果は、一般に、ｍ個のｎグラムごとに、複数個所の音声の出現位置とスコア（距離とか尤度が付随している）からなる。独立に検索したｍ個のｎグラムの検索結果候補が、互いにオーバーラップなく出現位置が連続するものを正しい検索位置候補とする。このうち、連続したｍ個のスコアを加算していき、あらかじめ設定されている閾値の条件を満たすものを検索結果とする。この時、スコアには、挿入誤りを仮定したnグラムによる検索結果であったかどうか、後述する検索語に脱落誤りを仮定したnグラムによる検索結果であったかどうかを、反映させる。反映のさせ方は種々の方法がありうる。検索語がｎグラム単位に分割できない場合は、オーバーラップを許しながら、分割する。たとえば、７音節からなる単語を３グラムずつに分割する場合は、１〜３、３〜５、５〜７の位置で３分割する）。図５は、その他の音節長の分割方法を示している。

認識結果の脱落誤りに対しては、検索語の音素・音節列に脱落を許して、新しい検索語とみなして、同様に検索する。ただし、脱落誤りは、無制限に仮定しているのではなく、音声認識装置の脱落誤り傾向と合致させる。通常は、連続する３音節に１個の割合で脱落を仮定する。図６は、検索語の脱落誤りを対処した３グラムの作成方法を示している。このように、未知語の検索語が与えられた場合、脱落誤りを仮定して、検索語を複数個のｎグラム単位に分割し、これらを独立に、インデックステーブルを検索する。検索結果をもとに、統合して、検索語の結果を求める。脱落を考慮した時のトライグラムは、そのことを図６に示すように記憶しておく。

図７は、認識結果の挿入誤り対策と検索語による脱落誤り対策の併用による置換誤り対策の例を示している。この両者を併用することにより、置換誤りにも対処できる。

ここでは、認識誤りに対して第１候補からの距離という尺度を用いて説明したが、認識装置の出力には、認識結果の確からしさを表す尤度（対数事後確率）が付随しているので、この値を用いることもできる。前記対数事後確率は、上記数１で定義される。数1は、音節列ＳのＨＭＭによる音声入力パターンの第ｉ時間区分から第ｊ時間区分までの入力特徴パラメータ系列ａ_ｉａ_ｉ＋１・・・ａ_ｊの対数生起確率を表わす。

日本語話し言葉コーパスの音声発声時間長４４時間分の学会講演音声データベースを対象として、本発明方法を実施した。図１の音声検索装置を、ＣＰＵ、メモリ、外部記憶装置などが有意に電気的に接続されたパーソナルコンピュータ（Ｉｎｔｅｌ（登録商標）Ｘｅｏｎ（登録商標）Ｘ５３６５、３ＧＨｚ、メモリ３３ＧＢ）上でＣ言語を用いて構築した。特に、未知語の検索を評価するために、まず、連続音節認識を行い、第３候補まで認識結果を出力する（音節ラティスと呼ぶ）。この認識結果に対して、トライグラムアレイをインデックス化した。図８に、トライグラムアレイの記憶装置内の内部表現を示す（ＳＩＬは文頭記号を示す）。日本語の音節の場合だと、音節の種類は外来語表現を含めて１１６種類なので、インデックスと３音節の組み合わせは、４バイト＝１長バイト整数型で記憶できる。４４時間の音声データのインデックステーブルの記憶容量は、１．５Ｇバイトであった。これは基の音声波形の記憶量（３６００×４４時間×１６ｋＨｚ×２バイト）＝５Ｇバイトよりも少ない。

音節間の距離は、音節単位のＨＭＭにおける各状態の音声特徴ベクトルの正規分布間のバタチャリヤ距離で定義した。検索スコアは、挿入誤りを考慮した場合は、挿入数のα倍、脱落誤りを仮定した場合は、その脱落数のβ倍をスコアに加算する。

検索語は、４４時間の音声データ中（約２２万単語を発声）に４回以下（１０時間に１回）しか発声されていなく、２００００単語の大語彙連続音声認識装置の辞書に存在しない、４３単語を未知語として用いた。延べ出現回数は１４２箇所で、１単語あたり、平均３回の出現回数（１５時間に１回、言い換えれば、７万単語の発声中に１回だけ発声）である。この検索は、非常に困難な問題であることが容易に理解できるところである。

まず、音節認識率の性能を表１に示す。

ここで、
正解率＝１．０−置換率―脱落率、
認識精度＝１．０−置換率―脱落率―挿入率、
である。この性能は、音声認識装置の性能そのもので、その性能は年々向上しているが、本発明とは直接関係はない。しかし、音節認識性能が良いほど検索性能も良くなることは、本発明の評価結果の解釈に注意を要する。表１より第３候補までに発声した音節が正しく認識できた割合は８７％である。挿入誤り率は３%、脱落誤り率は６％である。

次に、未知語の検索結果を表２に示す。

比較のために、本発明の基本である距離つきトライグラムを用いないで、単なるトライグラムで検索し、詳細なＤＰマッチングによって過剰な検索候補を削除する方法による結果を表３に示す。

ここで、
再現率＝正しく検出された数／全検索語数、
適合率＝正しく検出された数／検出された数
である。表中、「絞り込みなし」は、距離付きでない従来のトライグラムアレイで検索した場合の結果を示す。表３は、この結果に対して、ＤＰマッチングで、詳細に音節同士の照合で、候補区間を絞った場合である。表２と表３を比較すると、性能はほとんど同じであることがわかる。大まかに言えば、４４時間に４回（１０時間に１回）現れる未知語を検出すると２０箇所（２時間に１回）候補箇所が検出され、そのうち、２箇所が正しい検索結果である、という性能である。

一方、検索時間は、本発明による方法は、１検索語当り２．５ｍｓ、ＤＰマッチングを併用する我々の従来法では、１５ｍｓである。本発明方法は、検索対象の音声時間長の対数に比例し、一方、我々の従来方法では、線形に比例する。たとえば、１万時間の音声データを検索する場合、本発明方法だと、１検索語当り約数十ｍｓ程度で検索でき、従来の我々の方法だと５秒程度時間がかかる。

ア：検索対象の音声ドキュメントデータの格納部
イ：既知語検索のための大語彙連続音声認識部
ウ：大語彙連続音声認識結果の格納部
エ：既知語検索のためのインデックス作成部
オ：認識誤り単語・未知語検索のための音素・音節認識部
カ：音素・音節認識結果の格納部
キ：未知語・認識誤り単語の検索のための音素・音節のインデックス作成部
ク：検索単語の入力部（タイピング入力または音声入力）
ケ：既知語のための検索部
コ：未知語・認識誤り単語のための検索部
サ：既知語の検索結果表示部
シ：未知語・認識誤り単語の検索結果の表示部

Claims

検索対象の音声データを連続音声データベースとして格納する連続音声データベース格納部と、
前記連続音声データベース格納部に格納される連続音声データベースの音声データのうち既知語について単語列に変換する大語彙連続音声認識部と、
前記大語彙連続音声認識部により変換された単語列を格納する連続音声データ認識結果格納部と、
前記単語列に対してインデックスを付与するインデックス作成部と、
前記連続音声データベース格納部に格納される連続音声データベースの音声データのうち未知語および認識誤り単語について、音声の基本単位である音素あるいは音節の列を認識するとともに複数の認識候補を出力する音素・音節認識部と、
前記音素・音節認識部により出力された複数の認識候補を認識結果として格納する音素・音節認識結果格納部と、
前記音素・音節認識結果格納部に格納される認識候補の音素または音節の列について、未知語および認識誤り単語の検索のためのインデックスを付与する未知語インデックス作成部と、
音声あるいはテキストによる検索語を入力する検索語入力部と、
前記検索語入力部により入力された検索語のうち既知語について単語検索する単語検索部と、
前記検索語入力部により入力された検索語のうち未知語および認識誤り単語について音素または音節の列に変換しつつ検索し、少なくとも１つ以上の検索候補を提示する音素・音節列検索部とを備え、
前記未知語インデックス作成部は、音素・音節認識部による認識結果中のｎグラムについて音素または音節の列の先頭位置および距離をインデックスとするものであり、
前記音素・音節列検索部は、ｎグラムごとに分割された音素の列またはｎグラムごとに分割された音節の列を単位に検索するものであることを特徴とする音声検索装置。
請求項１に記載の音声検索装置であって、
前記音素・音節認識部は、少なくとも一つ以上の認識結果候補から置換誤りと挿入誤りを想定し、前記両誤りの認識を検索語に想定し、索引として付与し、検出候補を提示する機能を具備することを特徴とする音声検索装置。
請求項１または請求項２に記載の音声検索装置であって、
前記音素・音節認識部は、少なくとも一つ以上の認識結果候補から脱落誤りを想定し、前記脱落誤りの認識を検索語に想定し、索引として付与し、検出候補を提示する機能を具備することを特徴とする音声検索装置。
請求項３に記載の音声検索装置であって、
前記音素・音節認識部は、少なくとも一つ以上の認識結果候補から置換誤りと挿入誤りおよび／または脱落誤りを想定し、前記誤りの認識を検索語に想定し、索引として付与し、分割された検索情報を用いて得られた検出候補から、事前に設定された閾値を基準として検出候補を選別する機能を具備することを特徴とする音声検索装置。
請求項１乃至請求項４の記載の音声検索装置であって、
前記音素・音節認識部は、少なくとも一つ以上の認識結果候補に対して、音素間および音節間のバタチャリヤ距離を用いて索引を付与し、
第１の認識結果候補との音響的類似度に基づいて、第２の認識結果候補あるいは第３の認識結果候補との距離により検出候補を提示する機能を具備することを特徴とする音声検索装置。
請求項１乃至請求項５に記載の音声検索装置であって、
前記音素・音節認識部は、少なくとも一つ以上の検出候補に対して、数１で定義する対数尤度を用いて索引を付与し、

認識結果候補との対数尤度に基づいて、検出候補を提示する機能を具備することを特徴とする音声検索装置。
検索対象の音声データを連続音声データベースとして格納する連続音声データベース格納ステップと、
前記連続音声データベース格納ステップによって格納される連続音声データベースの音声データのうち既知語について単語列に変換する大語彙連続音声認識ステップと、
前記大語彙連続音声認識ステップにより変換された単語列を格納する連続音声データ認識結果格納のステップと、
前記単語列に対してインデックスを付与するインデックス作成のステップと、
前記連続音声データベース格納ステップにより格納される連続音声データベースの音声データのうち未知語および認識誤り単語について、音声の基本単位である音素あるいは音節の列を認識するとともに複数の認識候補を出力する音素・音節認識ステップと、
前記音素・音節認識ステップにより出力された複数の認識候補を認識結果として格納する音素・音節認識結果格納のステップと、
前記音素・音節認識結果格納のステップにより格納される認識候補の音素または音節の列について、未知語および認識誤り単語の検索のためのインデックスを付与する未知語インデックスの作成のステップと、
音声あるいはテキストによる検索語を入力する検索語入力ステップと、
前記検索語入力ステップにより入力された検索語のうち既知語について単語検索する単語検索ステップと、
前記検索語入力ステップにより入力された検索語のうち未知語および認識誤り単語について音素または音節の列に変換しつつ検索し、少なくとも１つ以上の検索候補を提示する音素・音節列検索ステップとを備え、
前記未知語インデックスの作成のステップは、音素・音節認識ステップによる認識結果中のｎグラムについて音素または音節の列の先頭位置および距離をインデックスとするものであり、
前記音素・音節列検索ステップは、ｎグラムごとに分割された音素の列またはｎグラムごとに分割された音節の列を単位に検索するものであることを特徴とする音声検索方法。
請求項７に記載の音声検索方法であって、
前記音素・音節認識ステップは、少なくとも一つ以上の認識結果候補から置換誤りと挿入誤りを想定し、前記両誤りの認識を検索語に想定し、索引として付与し、検出候補を提示する機能を有することを特徴とする音声検索方法。
請求項７または請求項８に記載の音声検索方法であって、
前記音素・音節認識ステップは、少なくとも一つ以上の認識結果候補から脱落誤りを想定し、前記脱落誤りの認識を検索語に想定し、索引として付与し、検出候補を提示する機能を有することを特徴とする音声検索方法。
請求項９に記載の音声検索方法であって、
前記音素・音節認識ステップは、少なくとも一つ以上の認識結果候補から置換誤りと挿入誤りおよび／または脱落誤りを想定し、前記誤りの認識を検索語に想定し、索引として付与し、分割された検索情報を用いて得られた検出候補から、事前に設定された閾値を基準として検出候補を選別する機能を有することを特徴とする音声検索方法。
請求項７乃至請求項１０の記載の音声検索方法であって、
前記音素・音節認識ステップは、少なくとも一つ以上の認識結果候補に対して、音素間および音節間のバタチャリヤ距離を用いて索引を付与し、
第１の認識結果候補との音響的類似度に基づいて、第２の認識結果候補あるいは第３の認識結果候補との距離により検出候補を提示する機能を有することを特徴とする音声検索方法。
請求項７乃至請求項１１に記載の音声検索方法であって、
前記音素・音節認識ステップは、少なくとも一つ以上の認識結果候補に対して、数１で定義する対数尤度を用いて索引を付与し、

認識結果の対数尤度に基づいて、検出候補を提示する機能を有することを特徴とする音声検索方法。