JP6003972B2 - 音声検索装置、音声検索方法及びプログラム - Google Patents
音声検索装置、音声検索方法及びプログラム Download PDFInfo
- Publication number
- JP6003972B2 JP6003972B2 JP2014259419A JP2014259419A JP6003972B2 JP 6003972 B2 JP6003972 B2 JP 6003972B2 JP 2014259419 A JP2014259419 A JP 2014259419A JP 2014259419 A JP2014259419 A JP 2014259419A JP 6003972 B2 JP6003972 B2 JP 6003972B2
- Authority
- JP
- Japan
- Prior art keywords
- likelihood
- section
- time length
- acquisition
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 49
- 230000005236 sound signal Effects 0.000 claims description 43
- 238000006243 chemical reaction Methods 0.000 claims description 36
- 230000008569 process Effects 0.000 description 30
- 238000004364 calculation method Methods 0.000 description 19
- 238000012545 processing Methods 0.000 description 18
- 238000012937 correction Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000010187 selection method Methods 0.000 description 7
- 230000007704 transition Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 101100087530 Caenorhabditis elegans rom-1 gene Proteins 0.000 description 4
- 101100305983 Mus musculus Rom1 gene Proteins 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000009795 derivation Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Artificial Intelligence (AREA)
Description
検索文字列を音素列に変換する変換手段と、
前記変換手段が変換した音素列に含まれる各音素の継続時間長を、音素に関する継続時間長データを記憶しているデータベースから取得する時間長取得手段と、
前記時間長取得手段が取得した継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長の候補として、複数の異なる話速に対応した複数の時間長を導出する時間長導出手段と、
検索対象の音声信号における前記時間長導出手段が導出した時間長を有する区間である尤度取得区間を、前記複数の時間長のそれぞれについて複数指定する区間指定手段と、
前記区間指定手段が指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段と、
前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定手段と、
を備えることを特徴とする。
実施形態1に係る音声検索装置100は、物理的には、図1に示すように、ROM(Read Only Memory)1と、RAM(Random Access Memory)2と、外部記憶装置3と、入力装置4と、出力装置5と、CPU(Central Processing Unit)6と、バス7と、を備える。
出力確率取得部117は、この出力確率を区間指定部115が指定した話速に対応する5つの尤度取得区間について、尤度取得区間に含まれる24個のフレームのそれぞれに対して出力確率を計算する。
なお、各フレームの出力確率をかけ算する処理であるので、対数をとらずにそのまま出力確率のかけ算をしてもよいし、対数の代わりに近似式を用いてもよい。
なお、検索対象の音声信号の中で指定可能な尤度取得区間の数Pは、音声信号の時間長Tと尤度取得区間の時間長Lとシフト長Sとを用いて、P=(T−L+S)/Sと定められる。話速に対応して5つずつ設定されるので、尤度取得区間は、全部で5P個の尤度取得区間のそれぞれに対して尤度を求めることになる。
選択部121は、この選択時間長(L/m)毎に行う尤度取得区間の選択の中から、尤度が高い尤度取得区間をx個選択する。この選択を5つの話速に対応する尤度取得区間ごとに行う。つまり、5つの話速のそれぞれについて、選択された尤度取得区間の中から尤度が高いx個(合計5x個)の尤度取得区間を選択する。
具体的には、まず、話速「早め」用の第0フレーム列の第1フレームについて、図4に示す音素「k1」に対する特徴量を計算する。次に、第0フレーム列の第2フレームについて、音素「k2」に対する特徴量を計算する。以下、同様にして、第0フレーム列の第24フレームについて、「i3」までの話速「早め」用の特徴量を計算する。
話速「早め」用の第0フレーム列について特徴量の計算が終わったら、次に、話速「やや早め」用の第0フレーム列について、同様にして24フレーム分の特徴量の計算を行う。以下、同様にして、話速「普通」「やや遅め」「遅め」用の第0フレーム列について、それぞれ24フレーム分の特徴量の計算を行う。
次に、本発明の実施形態2について説明する。
実施形態1において図7を用いて説明したように、選択部121は、最も尤度が高くなる時間長を選択する際に、時間長毎に尤度が高い順にx個(10個)の尤度を加算して、尤度の加算値が最も大きくなる時間長に基づく尤度取得区間を選択した。しかし、選択方法はこれに限定する必要はない。本変形例1では、図11に例示するように、尤度が高いほど大きな重み係数を掛けた補正後の尤度の加算値を用いて、どの話速に基づく尤度取得区間の尤度が良いかを比較する。
図11(b)は、重み係数の例であり、尤度の順位が高いほど大きな重み係数を設定する。図11(a)は、どの話速に対応する尤度取得区間の尤度が良いかを比較する際に、尤度に重み係数を掛けた後の値で比較する例である。
図11(a)の補正前尤度の欄には、選択部121が選択した10個の尤度が尤度の高い順にソートされている。図11(a)の補正後尤度の欄は、補正前尤度に重み係数を掛けた値を記載する。
具体的には、話速「早め」の尤度順位1の補正前尤度(0.20)に、図11(b)の尤度順位1用の重み係数(10)を掛け、補正後尤度(2.00)を求める。話速「早め」の尤度順位2の補正前尤度(0.17)に、図11(b)の尤度順位2用の重み係数(9)を掛け、補正後尤度(1.53)を取得する。以下同様にして、尤度順位10の補正前尤度(0.03)に、図11(b)の尤度順位10用の重み係数(1)を掛け、補正後尤度(0.03)までを取得する。話速「やや早め」「普通」「やや遅め」「遅め」についても同様にして補正後尤度を求める。
そして、重み係数を掛けた補正後の尤度10個を加算した値を比較し、合計値が最も大きい話速に対応する尤度取得区間のグループを最終候補の区間として残す。図11に示す場合では、「やや遅め」のグループの補正後の尤度の合計(17.0)が最も大きいので、「やや遅め」の尤度取得区間のグループを最終候補の区間として残す。
この処理によって、尤度の順位が上位である区間に適した発話時間長を選択することになるので、尤度の順位が高い区間の検索精度を上げることができる。例えば、検索対象の音声信号の全体に渡って漏れなく検索対象のクエリを検索するのではなく、ノイズの多い音声信号の中に検索対象とするクエリが含まれているか否かを判断する場合などに好適である。
選択部121が最終候補の区間を選択する方法として、以上の実施形態1と2及び変形例1で説明したように、尤度の加算値で時間長を選択した場合、飛びぬけて尤度の高い区間があった場合に尤度の加算値も大きくなるので、音声信号の全体に対して最適な発話時間長を選択することについて誤判定を生じる場合がある。特に選択部121が選択するx個の数が小さい場合には誤った判定を生じやすくなる。そこで、尤度の絶対値を用いるのではなく、5つの時間長に基づく尤度取得区間の相対的な順位比較をすることによって、発話時間長に基づく尤度取得区間のグループを選択する。
この処理により、飛びぬけて尤度が高い区間があった場合などの発話時間長の選択誤りを防止することができる。したがって、検索対象とする音声信号の全体において、検索精度を良くすることができる。
変形例2では、尤度の順位が同じ順位の尤度を話速間で比較し、どの話速に基づく尤度が相対的に良いかを比較した。しかし、この手法では、例えば、1時間の音声信号の中の短い区間(例えば10分間)に尤度の高い区間が集中する場合がある。この場合、長い音声信号の全区間で平均的に良い話速を選択できたとは言えない。
そこで、選択部121が最終候補の区間を選択する方法として、以下の選択方法を採用することもできる。すなわち、音声信号を所定数N個の区分に分割する。分割の仕方は、例えば、音声信号を100の区分に分割するとか、所定の時間長(例えば、1分ごとの時間長)の区分に分割する。分割した各区分の中で、どの時間長を発話時間長とした尤度取得区間の尤度が高いかを順位付ける。そして、N個の区分における平均順位が最も高い時間長に基づく尤度取得区間を最終候補の尤度取得区間として選択する。
図13(a)では、区分1(最初の1分間)では、「やや遅め」の尤度(0.55)が一番高いので1位とし、「普通」の尤度(0.40)が2番目に高いので2位とし、「やや早め」が3位(0.35)、「遅め」が4位(0.30)、「早め」が5位(0.20)の順位である。区分2(2分目)では、「普通」の尤度が一番高いので1位(0.35)、「やや遅め」の尤度が2番目に高いので2位(0.32)、「やや早め」が3位(0.21)、「遅め」が4位(0.18)、「早め」が5位(0.17)の順位である。このように、各区分の中で話速に対応する尤度を比較して順位付けを行い、区分1から区分10まで順位をつける。そして、その順位の合計を比較して、合計値が小さいものを選択する。図13(b)に示す例では、「やや遅め」の順位の合計が最も小さいので、「やや遅め」に対応する時間長に基づく尤度取得区間を最終候補の区間として選択する。
この処理により、飛びぬけて尤度が高い区分があった場合などの発話時間長の選択誤りを防止することができる。したがって、検索対象とする音声信号の全区分において、検索精度を良くすることができる。
検索文字列を音素列に変換する変換手段と、
前記変換手段が変換した音素列に含まれる各音素の継続時間長を、音素に関する継続時間長データを記憶しているデータベースから取得する時間長取得手段と、
前記時間長取得手段が取得した継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長の候補として、複数の異なる話速に対応した複数の時間長を導出する時間長導出手段と、
検索対象の音声信号における前記時間長導出手段が導出した時間長を有する区間である尤度取得区間を、前記複数の時間長のそれぞれについて複数指定する区間指定手段と、
前記区間指定手段が指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段と、
前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定手段と、
を備えることを特徴とする音声検索装置。
前記尤度取得手段が取得した尤度に基づいて、前記複数の時間長の中から1つの時間長を選択する選択手段を更に備え、
前記特定手段は、前記選択された時間長を有する尤度取得区間について取得した尤度に基づいて、前記選択された時間長の尤度取得区間の中から前記推定区間を特定する、
ことを特徴とする付記1に記載の音声検索装置。
前記選択手段は、同じ時間長の尤度取得区間について取得した尤度を尤度が高い順に所定個加算した加算値を、前記複数の時間長のそれぞれについて取得し、取得した加算値を比較して、前記複数の時間長の中から加算値が最大となる時間長を選択する、
ことを特徴とする付記2に記載の音声検索装置。
前記選択手段は、前記加算値を、同じ時間長の尤度取得区間について取得した尤度を、尤度が高いほど大きな重み係数を乗じて加算することによって取得する、
ことを特徴とする付記3に記載の音声検索装置。
前記区間指定手段が指定した尤度取得区間における前記検索対象の音声信号の特徴量を、音声信号と音素モデルとを比較する区間であるフレーム毎に算出する特徴量算出手段と、
前記検索対象の音声信号の特徴量が前記音素列に含まれる各音素から出力される出力確率を、フレーム毎に取得する出力確率取得手段と、
をさらに備え、
前記尤度取得手段は、前記区間指定手段が指定した尤度取得区間に含まれるフレーム毎に取得された出力確率の対数をとった値を加算して該尤度取得区間の前記尤度を取得する、
ことを特徴とする付記1から4のいずれかに記載の音声検索装置。
前記検索対象の音声信号に含まれるフレーム毎に、音響モデルの音素の各状態と、前記検索対象の音声信号の特徴量が音響モデルから作成した音素の各状態から出力される出力確率と、を対応付けて記憶する出力確率記憶手段をさらに備え、
前記出力確率取得手段は、前記変換手段が前記検索文字列を前記音素列に変換すると、該音素列に含まれる音素の各状態に対応付けて記憶された出力確率を、前記出力確率記憶手段に記憶された出力確率の中から前記尤度取得区間に含まれるフレーム毎に取得する、
ことを特徴とする付記5に記載の音声検索装置。
前記出力確率取得手段がフレーム毎に取得した出力確率のそれぞれを、そのフレームとそのフレームの前のN1個のフレームとそのフレームの後のN2個のフレームの中で最大の出力確率に置換する置換手段をさらに備え、
前記N1とN2は0を含む自然数であって、N1とN2のいずれかは0ではなく、
前記尤度取得手段は、前記置換手段による置換後の出力確率に基づいて、前記区間指定手段が指定した尤度取得区間の前記尤度を取得する、
ことを特徴とする付記6に記載の音声検索装置。
前記変換手段は、隣接する音素に依存しない音響モデルの音素を並べて、前記検索文字列を前記音素列に変換し、
前記尤度取得手段は、前記音素列に基づいて、前記区間指定手段が指定した尤度取得区間の前記尤度を取得し、
前記選択手段は、前記尤度取得手段が取得した尤度に基づいて、前記区間指定手段が指定した尤度取得区間の中から前記推定区間の複数の候補を選択し、
隣接する音素に依存する第2の音響モデルの音素を並べて、前記検索文字列を第2の音素列に変換する第2の変換手段と、
前記第2の音素列に基づいて、前記選択手段が前記推定区間の候補として選択した区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す第2の尤度を、前記選択手段が選択した複数の候補のそれぞれについて取得する第2の尤度取得手段と、
をさらに備え、
前記特定手段は、前記第2の尤度取得手段が取得した第2の尤度に基づいて、前記選択手段が選択した複数の候補の中から前記推定区間を特定する、
ことを特徴とする付記2に記載の音声検索装置。
前記選択手段は、前記区間指定手段が指定した尤度取得区間の中から、所定の選択時間長毎に、該所定の選択時間長の区間の中から開始する尤度取得区間の中で前記尤度が最大の尤度取得区間を1つずつ選択することにより、前記推定区間の複数の候補を選択する、
ことを特徴とする付記8に記載の音声検索装置。
検索文字列を音素列に変換する変換ステップと、
前記変換ステップにおいて変換した音素列に含まれる各音素の継続時間長を、音素に関する継続時間長データを記憶しているデータベースから取得する時間長取得ステップと、
前記時間長取得ステップにおいて取得した継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長の候補として、複数の異なる話速に対応した複数の時間長を導出する時間長導出ステップと、
検索対象の音声信号における前記時間長導出ステップにおいて導出した時間長を有する区間である尤度取得区間を、前記複数の時間長のそれぞれについて複数指定する区間指定ステップと、
前記区間指定ステップにおいて指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得ステップと、
前記区間指定ステップにおいて指定した尤度取得区間のそれぞれについて前記尤度取得ステップにおいて取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定ステップと、
を含む音声検索方法。
コンピュータを、
検索文字列を音素列に変換する変換手段、
前記変換手段が変換した音素列に含まれる各音素の継続時間長を、音素に関する継続時間長データを記憶しているデータベースから取得する時間長取得手段、
前記時間長取得手段が取得した継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長の候補として、複数の異なる話速に対応した複数の時間長を導出する時間長導出手段、
検索対象の音声信号における前記時間長導出手段が導出した時間長を有する区間である尤度取得区間を、前記複数の時間長のそれぞれについて複数指定する区間指定手段、
前記区間指定手段が指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段、
前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定手段、
として機能させるためのプログラム。
Claims (11)
- 検索文字列を音素列に変換する変換手段と、
前記変換手段が変換した音素列に含まれる各音素の継続時間長を、音素に関する継続時間長データを記憶しているデータベースから取得する時間長取得手段と、
前記時間長取得手段が取得した継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長の候補として、複数の異なる話速に対応した複数の時間長を導出する時間長導出手段と、
検索対象の音声信号における前記時間長導出手段が導出した時間長を有する区間である尤度取得区間を、前記複数の時間長のそれぞれについて複数指定する区間指定手段と、
前記区間指定手段が指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段と、
前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定手段と、
を備えることを特徴とする音声検索装置。 - 前記尤度取得手段が取得した尤度に基づいて、前記複数の時間長の中から1つの時間長を選択する選択手段を更に備え、
前記特定手段は、前記選択された時間長を有する尤度取得区間について取得した尤度に基づいて、前記選択された時間長の尤度取得区間の中から前記推定区間を特定する、
ことを特徴とする請求項1に記載の音声検索装置。 - 前記選択手段は、同じ時間長の尤度取得区間について取得した尤度を尤度が高い順に所定個加算した加算値を、前記複数の時間長のそれぞれについて取得し、取得した加算値を比較して、前記複数の時間長の中から加算値が最大となる時間長を選択する、
ことを特徴とする請求項2に記載の音声検索装置。 - 前記選択手段は、前記加算値を、同じ時間長の尤度取得区間について取得した尤度を、尤度が高いほど大きな重み係数を乗じて加算することによって取得する、
ことを特徴とする請求項3に記載の音声検索装置。 - 前記区間指定手段が指定した尤度取得区間における前記検索対象の音声信号の特徴量を、当該検索対象の音声信号と前記音素列とを比較する区間であるフレーム毎に算出する特徴量算出手段と、
前記検索対象の音声信号の特徴量が前記音素列に含まれる各音素から出力される出力確率を、フレーム毎に取得する出力確率取得手段と、
をさらに備え、
前記尤度取得手段は、前記区間指定手段が指定した尤度取得区間に含まれるフレーム毎に取得された出力確率の対数をとった値を加算して該尤度取得区間の前記尤度を取得する、
ことを特徴とする請求項1から4のいずれか1項に記載の音声検索装置。 - 前記検索対象の音声信号に含まれるフレーム毎に、音響モデルの音素の各状態と、前記検索対象の音声信号の特徴量が音響モデルから作成した音素の各状態から出力される出力確率と、を対応付けて記憶する出力確率記憶手段をさらに備え、
前記出力確率取得手段は、前記変換手段が前記検索文字列を前記音素列に変換すると、該音素列に含まれる音素の各状態に対応付けて記憶された出力確率を、前記出力確率記憶手段に記憶された出力確率の中から前記尤度取得区間に含まれるフレーム毎に取得する、
ことを特徴とする請求項5に記載の音声検索装置。 - 前記出力確率取得手段がフレーム毎に取得した出力確率のそれぞれを、そのフレームとそのフレームの前のN1個のフレームとそのフレームの後のN2個のフレームの中で最大の出力確率に置換する置換手段をさらに備え、
前記N1とN2は0を含む自然数であって、N1とN2のいずれかは0ではなく、
前記尤度取得手段は、前記置換手段による置換後の出力確率に基づいて、前記区間指定手段が指定した尤度取得区間の前記尤度を取得する、
ことを特徴とする請求項6に記載の音声検索装置。 - 前記変換手段は、隣接する音素に依存しない音響モデルの音素を並べて、前記検索文字列を前記音素列に変換し、
前記尤度取得手段は、前記音素列に基づいて、前記区間指定手段が指定した尤度取得区間の前記尤度を取得し、
前記選択手段は、前記尤度取得手段が取得した尤度に基づいて、前記区間指定手段が指定した尤度取得区間の中から前記推定区間の複数の候補を選択し、
隣接する音素に依存する第2の音響モデルの音素を並べて、前記検索文字列を第2の音素列に変換する第2の変換手段と、
前記第2の音素列に基づいて、前記選択手段が前記推定区間の候補として選択した区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す第2の尤度を、前記選択手段が選択した複数の候補のそれぞれについて取得する第2の尤度取得手段と、
をさらに備え、
前記特定手段は、前記第2の尤度取得手段が取得した第2の尤度に基づいて、前記選択手段が選択した複数の候補の中から前記推定区間を特定する、
ことを特徴とする請求項2に記載の音声検索装置。 - 前記選択手段は、前記区間指定手段が指定した尤度取得区間の中から、所定の選択時間長毎に、該所定の選択時間長の区間の中から開始する尤度取得区間の中で前記尤度が最大の尤度取得区間を1つずつ選択することにより、前記推定区間の複数の候補を選択する、
ことを特徴とする請求項8に記載の音声検索装置。 - 検索文字列を音素列に変換する変換ステップと、
前記変換ステップにおいて変換した音素列に含まれる各音素の継続時間長を、音素に関する継続時間長データを記憶しているデータベースから取得する時間長取得ステップと、
前記時間長取得ステップにおいて取得した継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長の候補として、複数の異なる話速に対応した複数の時間長を導出する時間長導出ステップと、
検索対象の音声信号における前記時間長導出ステップにおいて導出した時間長を有する区間である尤度取得区間を、前記複数の時間長のそれぞれについて複数指定する区間指定ステップと、
前記区間指定ステップにおいて指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得ステップと、
前記区間指定ステップにおいて指定した尤度取得区間のそれぞれについて前記尤度取得ステップにおいて取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定ステップと、
を含む音声検索方法。 - コンピュータを、
検索文字列を音素列に変換する変換手段、
前記変換手段が変換した音素列に含まれる各音素の継続時間長を、音素に関する継続時間長データを記憶しているデータベースから取得する時間長取得手段、
前記時間長取得手段が取得した継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長の候補として、複数の異なる話速に対応した複数の時間長を導出する時間長導出手段、
検索対象の音声信号における前記時間長導出手段が導出した時間長を有する区間である尤度取得区間を、前記複数の時間長のそれぞれについて複数指定する区間指定手段、
前記区間指定手段が指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段、
前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定手段、
として機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014259419A JP6003972B2 (ja) | 2014-12-22 | 2014-12-22 | 音声検索装置、音声検索方法及びプログラム |
US14/953,729 US9767790B2 (en) | 2014-12-22 | 2015-11-30 | Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium |
CN201510974271.1A CN105719643B (zh) | 2014-12-22 | 2015-12-22 | 声音检索装置、声音检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014259419A JP6003972B2 (ja) | 2014-12-22 | 2014-12-22 | 音声検索装置、音声検索方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016119000A JP2016119000A (ja) | 2016-06-30 |
JP6003972B2 true JP6003972B2 (ja) | 2016-10-05 |
Family
ID=56130170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014259419A Active JP6003972B2 (ja) | 2014-12-22 | 2014-12-22 | 音声検索装置、音声検索方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US9767790B2 (ja) |
JP (1) | JP6003972B2 (ja) |
CN (1) | CN105719643B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017015847A (ja) * | 2015-06-30 | 2017-01-19 | カシオ計算機株式会社 | 音声検索装置、音声検索方法及びプログラム |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9792907B2 (en) | 2015-11-24 | 2017-10-17 | Intel IP Corporation | Low resource key phrase detection for wake on voice |
US9972313B2 (en) * | 2016-03-01 | 2018-05-15 | Intel Corporation | Intermediate scoring and rejection loopback for improved key phrase detection |
CN109313900A (zh) * | 2016-06-15 | 2019-02-05 | 索尼公司 | 信息处理设备和信息处理方法 |
US10043521B2 (en) | 2016-07-01 | 2018-08-07 | Intel IP Corporation | User defined key phrase detection by user dependent sequence modeling |
WO2018116312A2 (en) * | 2016-12-21 | 2018-06-28 | Allstate Solutions Private Limited | Highway detection system for generating customized notifications |
US10083689B2 (en) * | 2016-12-23 | 2018-09-25 | Intel Corporation | Linear scoring for low power wake on voice |
CN107068145B (zh) * | 2016-12-30 | 2019-02-15 | 中南大学 | 语音评测方法及*** |
EP3662470B1 (en) * | 2017-08-01 | 2021-03-24 | Dolby Laboratories Licensing Corporation | Audio object classification based on location metadata |
US11276390B2 (en) * | 2018-03-22 | 2022-03-15 | Casio Computer Co., Ltd. | Audio interval detection apparatus, method, and recording medium to eliminate a specified interval that does not represent speech based on a divided phoneme |
US10714122B2 (en) | 2018-06-06 | 2020-07-14 | Intel Corporation | Speech classification of audio for wake on voice |
US10650807B2 (en) | 2018-09-18 | 2020-05-12 | Intel Corporation | Method and system of neural network keyphrase detection |
US11127394B2 (en) | 2019-03-29 | 2021-09-21 | Intel Corporation | Method and system of high accuracy keyphrase detection for low resource devices |
US11302301B2 (en) * | 2020-03-03 | 2022-04-12 | Tencent America LLC | Learnable speed control for speech synthesis |
CN111462777B (zh) * | 2020-03-30 | 2023-02-14 | 厦门快商通科技股份有限公司 | 关键词检索方法、***、移动终端及存储介质 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04288599A (ja) * | 1991-03-18 | 1992-10-13 | Fujitsu Ltd | 音声符号器における雑音符号帳の検索方式 |
JP3420965B2 (ja) * | 1999-02-25 | 2003-06-30 | 日本電信電話株式会社 | 対話型データベース検索方法、装置及び対話型データベース検索プログラムを記録した記録媒体 |
US7904296B2 (en) * | 2003-07-23 | 2011-03-08 | Nexidia Inc. | Spoken word spotting queries |
JP3945778B2 (ja) * | 2004-03-12 | 2007-07-18 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 設定装置、プログラム、記録媒体、及び設定方法 |
US20070203700A1 (en) * | 2004-03-30 | 2007-08-30 | Soichi Toyama | Speech Recognition Apparatus And Speech Recognition Method |
CN101223571B (zh) * | 2005-07-20 | 2011-05-18 | 松下电器产业株式会社 | 音质变化部位确定装置及音质变化部位确定方法 |
JPWO2007043679A1 (ja) * | 2005-10-14 | 2009-04-23 | シャープ株式会社 | 情報処理装置およびプログラム |
JP5229216B2 (ja) * | 2007-02-28 | 2013-07-03 | 日本電気株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
JP5072415B2 (ja) * | 2007-04-10 | 2012-11-14 | 三菱電機株式会社 | 音声検索装置 |
US8352268B2 (en) * | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis |
CN102081634B (zh) * | 2009-11-27 | 2015-07-08 | 株式会社理光 | 语音检索装置和语音检索方法 |
JP5533042B2 (ja) * | 2010-03-04 | 2014-06-25 | 富士通株式会社 | 音声検索装置、音声検索方法、プログラム及び記録媒体 |
CN102280106A (zh) * | 2010-06-12 | 2011-12-14 | 三星电子株式会社 | 用于移动通信终端的语音网络搜索方法及其装置 |
JP2013088488A (ja) * | 2011-10-13 | 2013-05-13 | Casio Comput Co Ltd | 音声検索装置、音声検索方法及びプログラム |
JP5874341B2 (ja) * | 2011-11-18 | 2016-03-02 | 沖電気工業株式会社 | 音声信号処理装置及びプログラム |
WO2013157190A1 (ja) * | 2012-04-20 | 2013-10-24 | パナソニック株式会社 | 音声処理装置、音声処理方法、プログラムおよび集積回路 |
JP2014038282A (ja) * | 2012-08-20 | 2014-02-27 | Toshiba Corp | 韻律編集装置、方法およびプログラム |
-
2014
- 2014-12-22 JP JP2014259419A patent/JP6003972B2/ja active Active
-
2015
- 2015-11-30 US US14/953,729 patent/US9767790B2/en active Active
- 2015-12-22 CN CN201510974271.1A patent/CN105719643B/zh active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017015847A (ja) * | 2015-06-30 | 2017-01-19 | カシオ計算機株式会社 | 音声検索装置、音声検索方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US9767790B2 (en) | 2017-09-19 |
US20160180839A1 (en) | 2016-06-23 |
CN105719643B (zh) | 2019-10-11 |
CN105719643A (zh) | 2016-06-29 |
JP2016119000A (ja) | 2016-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6003972B2 (ja) | 音声検索装置、音声検索方法及びプログラム | |
JP6003971B2 (ja) | 音声検索装置、音声検索方法及びプログラム | |
KR0134158B1 (ko) | 음성인식장치 | |
JP5610197B2 (ja) | 検索装置、検索方法、及び、プログラム | |
US9431007B2 (en) | Voice search device, voice search method, and non-transitory recording medium | |
US20110077943A1 (en) | System for generating language model, method of generating language model, and program for language model generation | |
JPH05289692A (ja) | ワードを予測する会話認識装置用言語生成装置及び方法 | |
US9437187B2 (en) | Voice search device, voice search method, and non-transitory recording medium | |
US5680509A (en) | Method and apparatus for estimating phone class probabilities a-posteriori using a decision tree | |
JP6235280B2 (ja) | 音声同時処理装置、方法およびプログラム | |
CA3162378A1 (en) | A text-to-speech synthesis method and system, a method of training a text-to-speech synthesis system, and a method of calculating an expressivity score | |
CN112750445B (zh) | 语音转换方法、装置和***及存储介质 | |
US8983847B2 (en) | Voice recognition apparatus, method, and computer program product | |
KR100542757B1 (ko) | 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치 | |
JP6565416B2 (ja) | 音声検索装置、音声検索方法及びプログラム | |
JP6604013B2 (ja) | 音声認識装置、音声認識方法及びプログラム | |
JP2008026721A (ja) | 音声認識装置、音声認識方法、および音声認識用プログラム | |
JP2017015847A (ja) | 音声検索装置、音声検索方法及びプログラム | |
JP6680009B2 (ja) | 検索インデクス生成装置、検索インデックス生成方法、音声検索装置、音声検索方法及びプログラム | |
JP2017167248A (ja) | 検索インデクス生成装置、検索インデックス生成方法、音声検索装置、音声検索方法及びプログラム | |
JP6903613B2 (ja) | 音声認識装置、音声認識方法及びプログラム | |
JP5369079B2 (ja) | 音響モデル作成方法とその装置とプログラム | |
JP5849819B2 (ja) | 音声データ検索装置、音声データ検索方法および音声データ検索プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160426 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160627 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160809 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160822 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6003972 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |