JP5590549B2 - 音声検索装置および音声検索方法 - Google Patents

音声検索装置および音声検索方法 Download PDF

Info

Publication number
JP5590549B2
JP5590549B2 JP2010038011A JP2010038011A JP5590549B2 JP 5590549 B2 JP5590549 B2 JP 5590549B2 JP 2010038011 A JP2010038011 A JP 2010038011A JP 2010038011 A JP2010038011 A JP 2010038011A JP 5590549 B2 JP5590549 B2 JP 5590549B2
Authority
JP
Japan
Prior art keywords
recognition
search
phoneme
syllable
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010038011A
Other languages
English (en)
Other versions
JP2011175046A (ja
Inventor
聖一 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyohashi University of Technology NUC
Original Assignee
Toyohashi University of Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyohashi University of Technology NUC filed Critical Toyohashi University of Technology NUC
Priority to JP2010038011A priority Critical patent/JP5590549B2/ja
Publication of JP2011175046A publication Critical patent/JP2011175046A/ja
Application granted granted Critical
Publication of JP5590549B2 publication Critical patent/JP5590549B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声およびテキスト入力により、音声データから所望する音声を検出する音声検索装置および音声検索方法に関するものである。
インターネット上には、ニュース音声、動画投稿、ポッドキャスト(これらを音声ドキュメントと称する)など、音声情報が多量に存在し、その量は年々増加している。また、会議音声や講義音声、コールセンター音声など、個別組織で保有している音声データも増加している。このような膨大な音声データから、ユーザの欲する情報を高速に、正しく検出することが要求されている。また、検索要求語は、固有名詞や新しい造語(例:豚インフルエンザ)などが多く、既存の大規模辞書に存在しない単語が多い。従来のテキスト検索法では、このような単語でも文字列として正しく表現されているので、検索語を文字列で入力すれば、正しく検索されることが多く問題は少ない。
一方、音声ドキュメントに対しては、通常は大語彙連続音声認識器で音声を単語列に変換後、テキスト検索技術を利用するのが最も簡単な方法であるが、もともと認識辞書(通常は2万語から十万語)に存在しない単語(未知語)は検索できない。また、音声認識誤りも多く、通常のテキスト検索では、検索できない。
音声ドキュメント中の未知語の検索語に対しては、認識辞書を大きくし、未知語を減らす方法がある(例えば、非特許文献1)。しかし、固有名詞などすべてを辞書として登録することは不可能であり、また、辞書を大きくしても認識誤りは避けられず、特に出現頻度の少ない単語は認識誤りが生じやすく、認識誤りの問題は解決されない。
そこで、未知語に対しては、音声認識技術によって、音声ドキュメントを音声言語の基本単位である音素・音節(他の基本単位もありうる)などの記号列に変換後、これらの記号列で表現された記号列とのマッチングを行うのが基本である(例えば、非特許文献2)。この音素・音節列への認識誤りに対処するために複数候補の認識結果を効率よくグラフ構造で表し、これに対して検索するのが普通である(例えば、特許文献1および非特許文献3)。これと検索語の音素・音節列のマッチングの高速化方法には、様々な工夫が行われているが(非特許文献3および4)、検索対象の音声ドキュメント量に比例して時間がかかるという問題がある。
特開2009−271117公報
栗城吾央、伊藤慶明、小嶋和徳、石亀昌明、田中和世:Web上の語彙を利用したクエリ格調による検索語検出、電子情報通信学会、音声技報、SP2009-84 (2009.12) 堀貴明、他:コンヒュージョンネットワークを用いたオープン語彙発話検索、日本音響学会講演論文集、1-3-10 (2007.9) 伊藤慶明、他:語彙のない音声文書検索における複数サブワードの統合、情報処理が会論文誌、 Vol.50, No.2, pp.524-533 (2009.2) 神田直之、住吉貴志、戸上真人、大淵康成:任意語彙音声発話検索のための多段階リスコアリング手法の性能評価、第2回音声ドキュメント処理ワークショップ論文集、pp.73-78 (2008.2)
大量の音声ドキュメントに対して、未知語に頑健な高速な検索が望まれているが、上記に示したように、従来法は、音声認識技術によって、音声ドキュメントを音声言語の基本単位である音素・音節などの記号列に変換後、これらの記号列で表現された記号列とのマッチングを行うのが基本である。この認識誤りに対処するために複数候補の認識結果を効率よくグラフ構造で表し、これに対して検索するのが従来法である。
しかし、検索対象の音声ドキュメント量に比例して時間がかかるのと認識結果の複数候補に存在しない認識誤りは対処できないという問題があった。
この問題に対処する方法として、二つの方法が提案されている。一つは、音素の記号列を転置インデックス法でインデックス化しておき、検索時に、置換誤りなどの認識誤りを考慮しながら、インデックステーブルを探索する方法である。この方法で高速化が可能となっているが、インデックスの探索に時間が要する問題があった。
もう一つの方法は、音素・音節列の認識誤りを考慮して、インデックス化しておく方法である。これによって、高速に検索できるが、検索要求語が過剰に検出されることが多いため、検出された箇所に対して、従来法で、詳細に記号列同士の照合を行い、候補を絞っている。この手法は、詳細な照合部分が、音声ドキュメントの時間長に比例して、時間がかかるという問題があった。
従来技術における上記課題を解決するために、発明者は以下の特徴を有する音声検索装置および音声検索方法を発明した。
請求項1に記載の音声検索装置は、
音声あるいはテキストによる検索語入力部と、検索対象の連続音声データベース格納部と、
前記入力部と前記データベース格納部からの音声データを認識する大語彙連続音声認識部と、
前記大語彙連続音声認識部の認識結果を格納する連続音声データ認識結果格納部と、
前記連続音声データベースにおいて未知語に索引を付与する未知語インデックス作成部と、
未知語の音声データに対して音声の基本単位である音素あるいは音節に分割し認識する音素・音節認識部と、
前記音素・音節認識部の認識結果を格納する音素・音節データ格納部と、
少なくとも一つ以上の検索候補を提示する音素・音節列検索部と、を備えた音声検索装置であって、前記音素・音節認識部は、前記索引が付与された未知語に対して複数の検出候補を生成する機能を具備することを特徴とする。
請求項2に記載の音声検索装置は、
請求項1に記載の音声検索装置であって、
前記音素・音節認識部は、少なくとも一つ以上の認識結果候補から置換誤りと挿入誤りを想定し、前記認識結果を索引として付与し、検出候補を提示する機能を具備することを特徴とする。
請求項3に記載の音声検索装置は、
請求項1または請求項2に記載の音声検索装置であって、
前記音素・音節認識部は、少なくとも一つ以上の認識結果候補から脱落誤りを想定し、前記脱落誤りを検索語で想定し、索引として付与し、検出候補を提示する機能を具備することを特徴とする。
請求項4に記載の音声検索装置は、
請求項3に記載の音声検索装置であって、
前記音素・音節認識部は、少なくとも一つ以上の認識結果候補から置換誤りと挿入誤りおよび/または脱落誤りを想定し、前記誤りの認識を索引として付与し、分割された検索語の情報を用いて得られた検出候補から、事前に設定された閾値を基準として検出候補を選別する機能を具備することを特徴とする。
請求項5に記載の音声検索装置は、
請求項1乃至請求項4に記載の音声検索装置であって、
前記音素・音節認識部は、少なくとも一つ以上の認識結果候補に対して、音素間および音節間のバタチャリヤ距離を用いて索引を付与し、
第1の認識結果候補との音響的類似度に基づいて、第2の認識結果候補あるいは第3の認識結果候補との距離により検出候補を提示する機能を具備すること音素・音節認識部を特徴とする。なお、音素間および音節間の距離の定義は、種々考えられ、通常は、認識システムで使用する尺度と対応するものを使用する。
請求項6に記載の音声検索装置は、
請求項1乃至請求項5に記載の音声検索装置であって、
前記音素・音節認識部は、少なくとも一つ以上の認識結果候補に対して、数1で定義する対数尤度を用いて索引を付与し、
Figure 0005590549
認識結果の対数尤度に基づいて、検出候補を提示する機能を具備することを特徴とする。
請求項7に記載の音声検索方法は、
音声あるいはテキストによる検索語入力ステップと、検索対象の連続音声データベース格納ステップと、前記入力部と前記データベース格納部からの音声データを認識する大語彙連続音声認識ステップと、
前記大語彙連続音声認識部の認識結果を格納する連続音声データ認識結果格納のステップと、
前記連続音声データベースにおいて未知語に索引を付与する未知語インデックスのステップと、
未知語の音声データに対して音声の基本単位である音素あるいは音節に分割し認識する音素・音節認識ステップと、
前記音素・音節認識部の認識結果を格納する音素・音節認識結果格納のステップと、
少なくとも一つ以上の検索候補を提示する音素・音節検索ステップと、を備えた音声検索方法であって、
前記音素・音節認識ステップは、前記索引が付与された未知語に対して複数の検出候補を生成する機能を有することを特徴とする。
請求項8に記載の音声検索方法は、
請求項7に記載の音声検索方法であって、
前記音素・音節認識ステップは、少なくとも一つ以上の認識結果候補から置換誤りと挿入誤りを想定し、前記認識を索引として付与し、検出候補を提示する機能を有することを特徴とする。
請求項9に記載の音声検索方法は、
請求項7または請求項8に記載の音声検索方法であって、
前記音素・音節認識ステップは、少なくとも一つ以上の認識結果候補から脱落誤りを想定し、前記脱落誤りの認識を検索語で想定し、索引として付与し、検出候補を提示する機能を有することを特徴とする。
請求項10に記載の音声検索方法は、
請求項9に記載の音声検索方法であって、
前記音素・音節認識ステップは、少なくとも一つ以上の認識結果候補から置換誤りと挿入誤りおよび/または脱落誤りを想定し、前記誤りの認識を索引として付与し、分割された検索語の情報を用いて得られた検出候補から、事前に設定された閾値を基準として検出候補を選別する機能を有することを特徴とする。
請求項11に記載の音声検索方法は、
請求項7乃至請求項10に記載の音声検索方法であって、
前記音素・音節認識ステップは、少なくとも一つ以上の検出候補に対して、音素間および音節間のバタチャリヤ距離を用いて索引を付与し、
第1の検出候補との音響的類似度に基づいて、第2の検出候補あるいは第3の検出候補との距離により検出候補を提示する機能を有することを特徴とする。なお、音素間および音節間の距離の定義は、種々考えられ、通常は、認識システムで使用する尺度と対応するものを使用する。
請求項12に記載の音声検索方法は、
請求項7乃至請求項11に記載の音声検索方法であって、
前記音素・音節認識ステップは、少なくとも一つ以上の検出候補に対して、数1で定義する対数尤度を用いて索引を付与し、
Figure 0005590549
認識結果の対数尤度に基づいて、検出候補を提示する機能を有することを特徴とする。
以上から、既知語に対しては、大語彙連続音声認識によって単語列に変換され、未知語や認識誤り単語に対しては、音素・音節認識によって単語よりも基本単位の音素列や音節列を認識することから、辞書に存在しない未知語あるいは認識誤りを含む大量の音声データから、音声およびテキスト入力による音声検索装置および音声検索方法を提供できるようになる。
また、分割された検索情報を用いて検索候補を提示する場合は、事前に設定する閾値を基準に検出候補を選別することにより、検索効率を向上させることができる。
音声検索装置のブロック図(a)および音声検索方法のアルゴリズムを説明するブロック図(b)である。 トライグラムアレイの作成手順を示す説明図である。 置換誤りを含む場合のトライグラムアレイの作成手順を示す説明図である。 挿入誤りを含む場合のトライグラムアレイの作成手順を示す説明図である。 検索語のトライグラムへの分割を示す説明図である。 脱落誤りを含む場合のトライグラムアレイの作成手順を示す説明図である。 挿入誤り対策と脱落誤り対策の併用による置換誤り対策を示す説明図である。 トライグラムアレイの内部表現を示す説明図である。
本発明は、認識誤りや未知語を含む大量の音声データベースに対し、高速に音声を検索できる手段を提供する。
具体的な構成は、既知語に対しては、従来法の大語彙認識装置で単語列に変換してから、通常のテキスト検索法で検索する。一方、未知語や認識誤り単語に対しては、単語よりも基本単位である音節列とか音素列の認識を行い、この結果に対して検索を行う。未知語は音素列や音節列に正しく認識できないので、認識誤りがあると想定する。認識誤りには、置換誤り・挿入誤り・脱落誤りがある。置換誤りに対しては、複数候補の認識結果を用いる。これだけでは、対処が不十分な場合は、次の挿入誤り対策と脱落誤り対策の併用で、対処可能である。挿入誤りに対しては、認識結果の挿入を考慮して検索する。脱落誤りに対しては、検索語の音素・音節列の方を脱落させて対処する。
検索対象の音声データベースに対しては、オフラインで予め認識を行い、その結果に対して、誤りを考慮したn音素・音節、例えば3音節の場合、3つ組アレイ(以下、トライグラムアレイという)を構成し、これに、この認識結果の位置と認識誤りの程度を示す距離もしくは尤度をつけてインデックスとして辞書順に記憶しておく。検索語に対して、単語を3音節単位に分割して、トライグラムアレイのインデックスを2分探索法などで検索し、分割して検索した結果を統合して、最終検索結果を出力する。この方法によって、従来法と比べて検索精度を落とすことなく、高速に検索できる。1万時間の音声データに対して、検索時間は1秒以内である。トライグラムアレイのインデックスの記憶量も、もとの音声ファイルデータ量よりも少なく、実用的である。
本装置への検索語の入力は、テキスト入力と音声入力の両方が可能である。音声入力の場合は、大語彙連続音声認識装置または音素・音節連続音声認識装置によりテキストに変換する。後者の認識誤りに対しては、検索対象音声データの音声認識誤り対策と同じ手法で対処する。
本発明の中核は、認識誤りに対応する距離もしくは尤度を、インデックスに付随させておき、検索文字列との詳細な照合を実行せずに、同等の性能で超高速に検索を可能とすることである。
本発明に係る実施形態について、図を用いて説明を行う。以下は、単なる説明例であって、実施の詳細について、前記説明例および図に限定されるものではない。
本発明による音声ドキュメントの検索装置のブロック図および全体の処理の流れを図1に示す。まず、オフラインで行う音声ドキュメントの認識およびインデックス化について説明する。
検索対象の音声ドキュメントデータの格納部(ア)から検索対象音声を取り出し、既知語検索のための大語彙連続音声認識装置(イ)により大語彙連続音声認識を行い、単語列に変換し、大語彙連続音声認識結果の格納部(ウ)に格納する(S3)。既知語の単語列の認識結果に対しては、既知語検索のためのインデックス作成部(エ)において、転置インデックスのデータ構造で、単語とその出現位置をテーブル化しておく。
また、これと並行して、認識誤り単語・未知語検索のための音素・音節認識部(オ)において、音声の基本認識単位である音素とか音節の列にも認識しておく。特に、音素・音節の認識は困難なので、複数の認識候補を出力し、ラティスの形式で出力し(この出力形式には任意性がある)、音素・音節認識結果の格納部(カ)に格納しておく(以上、S4)。認識誤り単語・未知語検索のための音素・音節列の認識結果に対しても、未知語・認識誤り単語の検索のための音素・音節のインデックス作成部(キ)において既知語と同様にインデックス化し、テーブル化しておくが、次の方法でインデックス化する。
音素・音節列を連続するn個を単位(以下、nグラムと呼ぶ)で、そのnグラムと音素・音節列の認識結果中にそれが存在する先頭位置および距離をインデックスとし、表にまとめる。音声ドキュメントの最初から最後まで、1音素・音節ずつずらしながらnグラムを作成していく。文探索で高速に検索できるように、辞書順に並べておく(以上、S5)。
上記S5の手順を図2の例を用いて説明する。この例は、認識候補が一つだけの場合である。第1候補の音素・音節認識結果だけを用いて作成したnグラムは、距離を0とする。
説明の簡単化のため、n=3とする。音声ドキュメントの最初の音節単位の3グラム(トライグラム)は「fu u ri」で先頭位置は0であるから、インデックスは0、距離は0、挿入誤りは0とする。次の3グラム(トライグラム)は「u ri e」で、インデックスは1、距離は0、挿入誤りは0となる。以下同様な操作を実行する。これを音声ドキュメントの最後まで実行した後、トライグラムを辞書順に並べる。同じトライグラムが複数箇所に存在するときは、辞書順に並べたときは、同じトライグラムが複数個並ぶ。このような同じトライグラムが続く場合の記憶方法の変形は種々存在する。たとえば、同じトライグラムが並ぶ場合は、一つだけで代表させ、あとは、別の表に保存する方法が考えられる。
図3は置換誤り対策のために、複数候補の認識結果を用いる場合を示している。ここでは、音節の認識候補数は3個とする。図2と同じようにトライグラムのインデックスを作成していくが、図3の例で示すようにトライグラムの先頭が第1候補、真ん中を第2候補、最後尾を第3候補として選んでトライグラムを作成する場合を示している。この場合の距離は、第1候補からの距離の和として求める。すなわち、d(e,u)+d(ki,ri)である。ここで、d(音節i,音節j)は、音節iと音節jの距離を示している。この音節間同士の距離は、あらかじめ定義しておき、表に格納しておく。前記音素・音節間の距離はバタチャリヤ距離で定義される。音節aと音節bの距離は、数2のように示される。
(バタチャリヤ距離)
Figure 0005590549
バタチャリヤ距離は、多次元正規分布間の距離を表わすもので、音節のモデルは複数個の正規分布の和からなるM個の状態で表わされる。
またこの例では挿入誤りはないので0である。このように、複数の認識結果の候補を考慮して、すべての組み合わせでトライグラムのインデックスを作成していく。
図4は、挿入誤り対策の例を示している。簡単のために第1候補だけの認識結果を示している。この系列に対して、挿入誤りを仮定してトライグラムのインデックスを作成していく。図4の例は、位置1の認識結果「ku」が挿入誤りと仮定し、この音節を飛ばしてトライグラムを作成した「fu u ri」の例を示している。この場合は、挿入誤りを仮定して作成したので、挿入の欄は、1となる。挿入誤りは無制限に仮定するのではなく、実際の音声認識装置の挿入誤り傾向に合致させる。たとえば、3音節のうち1音節が挿入されうるとする。
実際は、置換誤りも挿入誤りにも同時に対処するので、複数候補の認識結果に対して図3と図4の操作をすべて行う。
以上の方法で、検索対処の音声ドキュメントをオフラインで、インデックス化しておく。これに対して、検索語をオンラインでの検索について説明する。
タイピング入力または音声入力される検索単語の入力部(ク)(S1)からの検索語が、既知語の場合は(S2)、既知語のための検索部(ケ)により、通常のテキスト検索技術を用いて検索し(S6)、検索結果を得る(S7)。既知語の検索結果は、既知語の検索結果表示部(サ)によりユーザに対して表示される。
一方、検索語が未知語の検索の場合(音声認識用の辞書に入ってない場合)には(S2)、未知語・認識誤り単語のための検索部(コ)により音素・音節列に変換し(S8)、n連続単位(すなわち、nグラム)ごとに分割し(ここでは、m分割されたとする)、それぞれのnグラム単位で独立に、音声ドキュメントが上述の方法によりnグラム単位でインデックス化されているインデックステーブルを2分探索法で高速に検索し(S9)、検索件を得る(S10)。未知語・認識誤り単語の検索結果は、未知語・認識誤り単語の検索結果の表示部(シ)によりユーザに対して表示される。
上記の未知語・認識誤り単語の高速検索には、種々の変形が考えられる。たとえば、検索単位がトライグラムという固定長に限定しているので、与えられたトライグラムが表のどこに存在するか、一対一に対応させる計算法や表を用いることもできる。検索された結果は、一般に、m個のnグラムごとに、複数個所の音声の出現位置とスコア(距離とか尤度が付随している)からなる。独立に検索したm個のnグラムの検索結果候補が、互いにオーバーラップなく出現位置が連続するものを正しい検索位置候補とする。このうち、連続したm個のスコアを加算していき、あらかじめ設定されている閾値の条件を満たすものを検索結果とする。この時、スコアには、挿入誤りを仮定したnグラムによる検索結果であったかどうか、後述する検索語に脱落誤りを仮定したnグラムによる検索結果であったかどうかを、反映させる。反映のさせ方は種々の方法がありうる。検索語がnグラム単位に分割できない場合は、オーバーラップを許しながら、分割する。たとえば、7音節からなる単語を3グラムずつに分割する場合は、1〜3、3〜5、5〜7の位置で3分割する)。図5は、その他の音節長の分割方法を示している。
認識結果の脱落誤りに対しては、検索語の音素・音節列に脱落を許して、新しい検索語とみなして、同様に検索する。ただし、脱落誤りは、無制限に仮定しているのではなく、音声認識装置の脱落誤り傾向と合致させる。通常は、連続する3音節に1個の割合で脱落を仮定する。図6は、検索語の脱落誤りを対処した3グラムの作成方法を示している。このように、未知語の検索語が与えられた場合、脱落誤りを仮定して、検索語を複数個のnグラム単位に分割し、これらを独立に、インデックステーブルを検索する。検索結果をもとに、統合して、検索語の結果を求める。脱落を考慮した時のトライグラムは、そのことを図6に示すように記憶しておく。
図7は、認識結果の挿入誤り対策と検索語による脱落誤り対策の併用による置換誤り対策の例を示している。この両者を併用することにより、置換誤りにも対処できる。
ここでは、認識誤りに対して第1候補からの距離という尺度を用いて説明したが、認識装置の出力には、認識結果の確からしさを表す尤度(対数事後確率)が付随しているので、この値を用いることもできる。前記対数事後確率は、上記数1で定義される。数1は、音節列SのHMMによる音声入力パターンの第i時間区分から第j時間区分までの入力特徴パラメータ系列ai+1・・・aの対数生起確率を表わす。
日本語話し言葉コーパスの音声発声時間長44時間分の学会講演音声データベースを対象として、本発明方法を実施した。図1の音声検索装置を、CPU、メモリ、外部記憶装置などが有意に電気的に接続されたパーソナルコンピュータ(Intel(登録商標) Xeon(登録商標) X5365、 3GHz、メモリ33GB)上でC言語を用いて構築した。特に、未知語の検索を評価するために、まず、連続音節認識を行い、第3候補まで認識結果を出力する(音節ラティスと呼ぶ)。この認識結果に対して、トライグラムアレイをインデックス化した。図8に、トライグラムアレイの記憶装置内の内部表現を示す(SILは文頭記号を示す)。日本語の音節の場合だと、音節の種類は外来語表現を含めて116種類なので、インデックスと3音節の組み合わせは、4バイト=1長バイト整数型で記憶できる。44時間の音声データのインデックステーブルの記憶容量は、1.5Gバイトであった。これは基の音声波形の記憶量(3600×44時間×16kHz×2バイト)=5Gバイトよりも少ない。
音節間の距離は、音節単位のHMMにおける各状態の音声特徴ベクトルの正規分布間のバタチャリヤ距離で定義した。検索スコアは、挿入誤りを考慮した場合は、挿入数のα倍、脱落誤りを仮定した場合は、その脱落数のβ倍をスコアに加算する。
検索語は、44時間の音声データ中(約22万単語を発声)に4回以下(10時間に1回)しか発声されていなく、20000単語の大語彙連続音声認識装置の辞書に存在しない、43単語を未知語として用いた。延べ出現回数は142箇所で、1単語あたり、平均3回の出現回数(15時間に1回、言い換えれば、7万単語の発声中に1回だけ発声)である。この検索は、非常に困難な問題であることが容易に理解できるところである。
まず、音節認識率の性能を表1に示す。
Figure 0005590549
ここで、
正解率=1.0−置換率―脱落率、
認識精度=1.0−置換率―脱落率―挿入率、
である。この性能は、音声認識装置の性能そのもので、その性能は年々向上しているが、本発明とは直接関係はない。しかし、音節認識性能が良いほど検索性能も良くなることは、本発明の評価結果の解釈に注意を要する。表1より第3候補までに発声した音節が正しく認識できた割合は87%である。挿入誤り率は3%、脱落誤り率は6%である。
次に、未知語の検索結果を表2に示す。
Figure 0005590549
比較のために、本発明の基本である距離つきトライグラムを用いないで、単なるトライグラムで検索し、詳細なDPマッチングによって過剰な検索候補を削除する方法による結果を表3に示す。
Figure 0005590549
ここで、
再現率=正しく検出された数/全検索語数、
適合率=正しく検出された数/検出された数
である。表中、「絞り込みなし」は、距離付きでない従来のトライグラムアレイで検索した場合の結果を示す。表3は、この結果に対して、DPマッチングで、詳細に音節同士の照合で、候補区間を絞った場合である。表2と表3を比較すると、性能はほとんど同じであることがわかる。大まかに言えば、44時間に4回(10時間に1回)現れる未知語を検出すると20箇所(2時間に1回)候補箇所が検出され、そのうち、2箇所が正しい検索結果である、という性能である。
一方、検索時間は、本発明による方法は、1検索語当り2.5ms、DPマッチングを併用する我々の従来法では、15msである。本発明方法は、検索対象の音声時間長の対数に比例し、一方、我々の従来方法では、線形に比例する。たとえば、1万時間の音声データを検索する場合、本発明方法だと、1検索語当り約数十ms程度で検索でき、従来の我々の方法だと5秒程度時間がかかる。
ア:検索対象の音声ドキュメントデータの格納部
イ:既知語検索のための大語彙連続音声認識部
ウ:大語彙連続音声認識結果の格納部
エ:既知語検索のためのインデックス作成部
オ:認識誤り単語・未知語検索のための音素・音節認識部
カ:音素・音節認識結果の格納部
キ:未知語・認識誤り単語の検索のための音素・音節のインデックス作成部
ク:検索単語の入力部(タイピング入力または音声入力)
ケ:既知語のための検索部
コ:未知語・認識誤り単語のための検索部
サ:既知語の検索結果表示部
シ:未知語・認識誤り単語の検索結果の表示部

Claims (12)

  1. 検索対象の音声データを連続音声データベースとして格納する連続音声データベース格納部と、
    前記連続音声データベース格納部に格納される連続音声データベースの音声データのうち既知語について単語列に変換する大語彙連続音声認識部と、
    前記大語彙連続音声認識部により変換された単語列を格納する連続音声データ認識結果格納部と、
    前記単語列に対してインデックスを付与するインデックス作成部と、
    前記連続音声データベース格納部に格納される連続音声データベースの音声データのうち未知語および認識誤り単語について、音声の基本単位である音素あるいは音節の列を認識するとともに複数の認識候補を出力する音素・音節認識部と、
    前記音素・音節認識部により出力された複数の認識候補を認識結果として格納する音素・音節認識結果格納部と、
    前記音素・音節認識結果格納部に格納される認識候補の音素または音節の列について、未知語および認識誤り単語の検索のためのインデックスを付与する未知語インデックス作成部と、
    音声あるいはテキストによる検索語を入力する検索語入力部と、
    前記検索語入力部により入力された検索語のうち既知語について単語検索する単語検索部と、
    前記検索語入力部により入力された検索語のうち未知語および認識誤り単語について音素または音節の列に変換しつつ検索し、少なくとも1つ以上の検索候補を提示する音素・音節列検索部とを備え、
    前記未知語インデックス作成部は、音素・音節認識部による認識結果中のnグラムについて音素または音節の列の先頭位置および距離をインデックスとするものであり、
    前記音素・音節列検索部は、nグラムごとに分割された音素の列またはnグラムごとに分割された音節の列を単位に検索するものであることを特徴とする音声検索装置。
  2. 請求項1に記載の音声検索装置であって、
    前記音素・音節認識部は、少なくとも一つ以上の認識結果候補から置換誤りと挿入誤りを想定し、前記両誤りの認識を検索語に想定し、索引として付与し、検出候補を提示する機能を具備することを特徴とする音声検索装置。
  3. 請求項1または請求項2に記載の音声検索装置であって、
    前記音素・音節認識部は、少なくとも一つ以上の認識結果候補から脱落誤りを想定し、前記脱落誤りの認識を検索語に想定し、索引として付与し、検出候補を提示する機能を具備することを特徴とする音声検索装置。
  4. 請求項3に記載の音声検索装置であって、
    前記音素・音節認識部は、少なくとも一つ以上の認識結果候補から置換誤りと挿入誤りおよび/または脱落誤りを想定し、前記誤りの認識を検索語に想定し、索引として付与し、分割された検索情報を用いて得られた検出候補から、事前に設定された閾値を基準として検出候補を選別する機能を具備することを特徴とする音声検索装置。
  5. 請求項1乃至請求項4の記載の音声検索装置であって、
    前記音素・音節認識部は、少なくとも一つ以上の認識結果候補に対して、音素間および音節間のバタチャリヤ距離を用いて索引を付与し、
    第1の認識結果候補との音響的類似度に基づいて、第2の認識結果候補あるいは第3の認識結果候補との距離により検出候補を提示する機能を具備することを特徴とする音声検索装置。
  6. 請求項1乃至請求項5に記載の音声検索装置であって、
    前記音素・音節認識部は、少なくとも一つ以上の検出候補に対して、数1で定義する対数尤度を用いて索引を付与し、
    Figure 0005590549
    認識結果候補との対数尤度に基づいて、検出候補を提示する機能を具備することを特徴とする音声検索装置。
  7. 検索対象の音声データを連続音声データベースとして格納する連続音声データベース格納ステップと、
    前記連続音声データベース格納ステップによって格納される連続音声データベースの音声データのうち既知語について単語列に変換する大語彙連続音声認識ステップと、
    前記大語彙連続音声認識ステップにより変換された単語列を格納する連続音声データ認識結果格納のステップと、
    前記単語列に対してインデックスを付与するインデックス作成のステップと、
    前記連続音声データベース格納ステップにより格納される連続音声データベースの音声データのうち未知語および認識誤り単語について、音声の基本単位である音素あるいは音節の列を認識するとともに複数の認識候補を出力する音素・音節認識ステップと、
    前記音素・音節認識ステップにより出力された複数の認識候補を認識結果として格納する音素・音節認識結果格納のステップと、
    前記音素・音節認識結果格納のステップにより格納される認識候補の音素または音節の列について、未知語および認識誤り単語の検索のためのインデックスを付与する未知語インデックスの作成のステップと、
    音声あるいはテキストによる検索語を入力する検索語入力ステップと、
    前記検索語入力ステップにより入力された検索語のうち既知語について単語検索する単語検索ステップと、
    前記検索語入力ステップにより入力された検索語のうち未知語および認識誤り単語について音素または音節の列に変換しつつ検索し、少なくとも1つ以上の検索候補を提示する音素・音節列検索ステップとを備え、
    前記未知語インデックスの作成のステップは、音素・音節認識ステップによる認識結果中のnグラムについて音素または音節の列の先頭位置および距離をインデックスとするものであり、
    前記音素・音節列検索ステップは、nグラムごとに分割された音素の列またはnグラムごとに分割された音節の列を単位に検索するものであることを特徴とする音声検索方法。
  8. 請求項7に記載の音声検索方法であって、
    前記音素・音節認識ステップは、少なくとも一つ以上の認識結果候補から置換誤りと挿入誤りを想定し、前記両誤りの認識を検索語に想定し、索引として付与し、検出候補を提示する機能を有することを特徴とする音声検索方法。
  9. 請求項7または請求項8に記載の音声検索方法であって、
    前記音素・音節認識ステップは、少なくとも一つ以上の認識結果候補から脱落誤りを想定し、前記脱落誤りの認識を検索語に想定し、索引として付与し、検出候補を提示する機能を有することを特徴とする音声検索方法。
  10. 請求項9に記載の音声検索方法であって、
    前記音素・音節認識ステップは、少なくとも一つ以上の認識結果候補から置換誤りと挿入誤りおよび/または脱落誤りを想定し、前記誤りの認識を検索語に想定し、索引として付与し、分割された検索情報を用いて得られた検出候補から、事前に設定された閾値を基準として検出候補を選別する機能を有することを特徴とする音声検索方法。
  11. 請求項7乃至請求項10の記載の音声検索方法であって、
    前記音素・音節認識ステップは、少なくとも一つ以上の認識結果候補に対して、音素間および音節間のバタチャリヤ距離を用いて索引を付与し、
    第1の認識結果候補との音響的類似度に基づいて、第2の認識結果候補あるいは第3の認識結果候補との距離により検出候補を提示する機能を有することを特徴とする音声検索方法。
  12. 請求項7乃至請求項11に記載の音声検索方法であって、
    前記音素・音節認識ステップは、少なくとも一つ以上の認識結果候補に対して、数1で定義する対数尤度を用いて索引を付与し、
    Figure 0005590549
    認識結果の対数尤度に基づいて、検出候補を提示する機能を有することを特徴とする音声検索方法。
JP2010038011A 2010-02-23 2010-02-23 音声検索装置および音声検索方法 Expired - Fee Related JP5590549B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010038011A JP5590549B2 (ja) 2010-02-23 2010-02-23 音声検索装置および音声検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010038011A JP5590549B2 (ja) 2010-02-23 2010-02-23 音声検索装置および音声検索方法

Publications (2)

Publication Number Publication Date
JP2011175046A JP2011175046A (ja) 2011-09-08
JP5590549B2 true JP5590549B2 (ja) 2014-09-17

Family

ID=44687965

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010038011A Expired - Fee Related JP5590549B2 (ja) 2010-02-23 2010-02-23 音声検索装置および音声検索方法

Country Status (1)

Country Link
JP (1) JP5590549B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014033855A1 (ja) * 2012-08-29 2014-03-06 株式会社日立製作所 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
JP6280312B2 (ja) * 2013-05-13 2018-02-14 キヤノン株式会社 議事録記録装置、議事録記録方法及びプログラム
JP6400936B2 (ja) 2014-04-21 2018-10-03 シノイースト・コンセプト・リミテッド 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム
JP7102710B2 (ja) * 2017-11-22 2022-07-20 富士通株式会社 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000267693A (ja) * 1999-03-12 2000-09-29 Fuji Xerox Co Ltd 音声処理装置及び索引作成装置
JP4115723B2 (ja) * 2002-03-18 2008-07-09 独立行政法人産業技術総合研究所 音声入力によるテキスト検索装置
JP4259100B2 (ja) * 2002-11-26 2009-04-30 パナソニック株式会社 音声認識用未知発話検出装置及び音声認識装置
JP4511274B2 (ja) * 2004-07-29 2010-07-28 三菱電機株式会社 音声データ検索装置
JP4867654B2 (ja) * 2006-12-28 2012-02-01 日産自動車株式会社 音声認識装置、および音声認識方法
JP5072415B2 (ja) * 2007-04-10 2012-11-14 三菱電機株式会社 音声検索装置

Also Published As

Publication number Publication date
JP2011175046A (ja) 2011-09-08

Similar Documents

Publication Publication Date Title
Czech A System for Recognizing Natural Spelling of English Words
US8954333B2 (en) Apparatus, method, and computer program product for processing input speech
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
JP5440177B2 (ja) 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
US9978364B2 (en) Pronunciation accuracy in speech recognition
US20110224982A1 (en) Automatic speech recognition based upon information retrieval methods
WO2003010754A1 (fr) Systeme de recherche a entree vocale
JP5326169B2 (ja) 音声データ検索システム及び音声データ検索方法
JP5524138B2 (ja) 同義語辞書生成装置、その方法、及びプログラム
Bulyko et al. Subword speech recognition for detection of unseen words.
JP5590549B2 (ja) 音声検索装置および音声検索方法
JP5897718B2 (ja) 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
JP5436307B2 (ja) 類似文書検索装置
JP5542559B2 (ja) 音声検索インタフェース装置及び音声入力検索方法
JP2010277036A (ja) 音声データ検索装置
JP2002278579A (ja) 音声データ検索装置
JP2011128903A (ja) 系列信号検索装置および系列信号検索方法
JP2011007862A (ja) 音声認識装置、音声認識プログラム、および音声認識方法
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
Can et al. Web derived pronunciations for spoken term detection
JP5669707B2 (ja) 類似文書検索装置
JP2000267693A (ja) 音声処理装置及び索引作成装置
JP2938865B1 (ja) 音声認識装置
JP2004309928A (ja) 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム
Ma et al. Low-frequency word enhancement with similar pairs in speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140703

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140723

R150 Certificate of patent or registration of utility model

Ref document number: 5590549

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees