JP3559479B2 - 連続音声認識方法 - Google Patents
連続音声認識方法 Download PDFInfo
- Publication number
- JP3559479B2 JP3559479B2 JP26823799A JP26823799A JP3559479B2 JP 3559479 B2 JP3559479 B2 JP 3559479B2 JP 26823799 A JP26823799 A JP 26823799A JP 26823799 A JP26823799 A JP 26823799A JP 3559479 B2 JP3559479 B2 JP 3559479B2
- Authority
- JP
- Japan
- Prior art keywords
- hypothesis
- word
- score
- search
- word string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Description
【発明の属する技術分野】
この発明は、規定された文法あるいは接続関係によって生成可能な数多くの単語列の仮説から、入力された音声に最も近い仮説を、複数の探索段階により見つける連続音声認識方法に関する。
【0002】
【従来の技術】
まず、図6を参照して、従来の連続音声認識法の一例について説明する。この図において、入力音声11は、分析処理部12において特徴パラメータのベクトルデータ時系列に変換され、さらに探索処理部13において文法/言語モデル16で許容する単語列の仮説(以下単に仮説と記す)と対応した音響モデル15と前記特徴パラメータのベクトルデータ時系列とが照合される。この仮説の照合結果の評価値であるスコアは、入力音声と仮説との音響的な近さを示す音響スコアと仮説の存在する確率を示す言語スコアからなり、最も高いスコアを持つ仮説が認識結果14として出力される。
【0003】
分析処理部12における信号処理としてよく用いられるのは、ケプストラム分析であり、特徴パラメータとしては、MFCC(Mel Frequency Cepstral Coefficient) 、ΔMFCC、対数パワーなどがある。音響モデル15としては、確率・統計理論に基づいてモデル化された隠れマルコフモデル(Hidden Markov Model 、以後HMMという)が主流である。通常、HMMは音素ごとに作成される(音素モデル)が、現在では、ある音素のHMMを作成する際に、その前後に接続する音素も考慮に入れる(音素環境を考慮する)triphone HMMと呼ばれるHMMが主流となっている。このHMMの詳細は、例えば、文献(社団法人電子情報通信学会編、中川聖一著『確率モデルによる音声認識』)に開示されている。
【0004】
文法/言語モデル16は、認識対象とする文章を定義するための単語の連結関係を規定したものであり、単語を枝とした単語ネットワークや言語の確率モデル等が用いられる。連続音声認識の場合、文法は図7に示すような任意の単語が任意の単語に接続可能な単語ネットワークの形式をとることが多い。このような形式をとることで単語ネットワークに登録されている単語の範囲内で任意の単語列の仮説の生成が可能となる。言語の確率モデルは、単語単体の存在確率、2つ以上の単語の連鎖する確率が用いられる。単語単体の存在確率を表すモデルは単語1−gram、単語の2連鎖確率、3連鎖確率をそれぞれ表すモデルはそれぞれ、単語2−gram、単語3−gramと呼ばれる。この言語の確率モデルを用いることで、言語(ここでは日本語)として存在し得ない仮説の生成を抑制することができる。この言語の確率モデルの詳細は、例えば、社団法人電子情報通信学会編、中川聖一著『確率モデルによる音声認識』等に開示されている。
【0005】
探索処理部13では、文法で規定された単語の接続関係を示す単語ネットワーク上の仮説に対応した音響モデルと特徴パラメータのベクトルデータ時系列を照合し、音響的な尤もらしさを示す音響スコアを求めると同時に、その仮説に対応した言語モデルから言語スコアを求め、音響スコアと言語スコアからなる仮説のスコアを、入力連続音声の始端から終端まで各仮説について求め、最も大きいスコアの仮説、つまり入力音声に最も近い仮説を認識結果として出力する。連続音声認識においては、文法で生成可能な仮説が膨大であり、高速かつ高精度に認識結果を得るために、仮説探索を複数段階行い、段階的に候補仮説を絞り込んでいくマルチパス探索という探索法がとられることが多い。マルチパス探索の詳細は、例えば、R.Schwartz, L.Nguyen, and John Makhoul:“Multiple-pass SearchStrategies ”,in Automatic Speech and Speaker Recognition Advanced Topics, pp.429-456, Kluwer Academic Publishers(1996).等に開示されている。
【0006】
ここでは最も一般的である2段階で仮説を絞り込むマルチパス探索について図8を用いて説明する。1段階目の探索(第1パス探索)21では、図7に示されるような単語ネットワークで生成可能な膨大な仮説の中から、文法/言語モデル16中の粗い言語モデル、例えば単語2−gramや、音響モデル15中の粗い音響モデル、例えば単語内の音素環境のみ考慮するtriphone HMMなどの計算コストの低いモデルを用い、入力音声に近い候補仮説を高速に絞り込む。
【0007】
またこの第1パス探索21では時間同期ビーム探索と呼ばれる方法がとられることが多い。時間同期ビーム探索では、入力音声と仮説の照合は図7の単語ネットワークで生成可能な全ての仮説に対して、通常分析フレームごとの計算を、時間同期的に同時に進められるが、生成可能な仮説の数が時間の経過と共に著しく多くなるため、この処理を現実的な処理時間で終えることは困難である。そこで、探索途中において認識結果となる可能性が低い仮説に対する探索を打ち切る(枝刈りする)ことで、現実的な処理時間で探索を終えることをねらう。時間同期ビーム探索において仮説を枝刈りする基準としては、全ての仮説の中で、最大のスコアから大きいスコアの順にm個の仮説を残し、それ以外の仮説を打ち切る方法や、全ての仮説のスコアの中で最大のスコアから一定値θを差し引いたスコアをしきい値とし、そのしきい値以上のスコアを有する仮説のみ残し、それ以下のスコアを有する仮説を枝刈りする方法等がある。ここで、仮説を枝刈りする基準を決定するパラメータであるmやθはビーム幅と呼ばれる。時間同期ビーム探索では同一時刻における各仮説のスコアの大きさから可能性がないと推定される仮説を枝刈りするため、正しい解となる仮説を枝刈りする可能性は少ない。しかし時間同期ビーム探索は、探索途中で仮説の枝刈りを行うため、必ずしも最もスコアの高い仮説が認識結果として得られるわけではないが、ビーム幅をある程度以上大きくとれば必ず解が得られる探索法である。時間同期ビーム探索の詳細は、例えば、R.Haeb-Umbach and H.Ney :“Improvements in beam search for 10000-word continuous-speech recognition”,IEEE Trans. Speech and Audio Processing, Vol.2,No.2,pp.353-356(1994).等に開示されている。
【0008】
第1パス探索の結果は、トレリス形式や単語ラティスなどの中間表現として得られるが、ここでは図9に示すような単語ラティスと呼ばれる単語の接続関係をコンパクトに表現した単語ネットワークを想定する。単語ラティスには、第1パス探索の結果として単語境界時刻とその時刻におけるその仮説のそれまでのスコアが記憶されている。単語ラティスの詳細は、例えば、S.Ortmanns and H.Ney:“A word graph algorithm for large vocaburary continuous speech recognition ”,Computer Speech and Language, Vol.11, No.1, pp.43-72(1997).等に開示されている。
【0009】
図8に示すように2段階目の探索(第2パス探索)22では、第1パス探索21の結果得られた単語ラティス23上で音響モデル15中の高精度の音響モデルと文法/言語モデル16中の高精度の言語モデルを用いた仮説のスコアの再計算を分析フレームごとに行い、最終的な認識結果14を得る。第2パス探索22としてよく用いられる方法としては、N−bestリスコアリング、A* 探索が挙げられる。
【0010】
N−bestリスコアリングは、粗いモデルを用いた探索によるスコアで順序づけられたN−best文候補と呼ばれる複数(スコアの高いN個)の文候補のスコアを、高精度のモデルを用いた探索によるスコアで置き換えて、文候補の順序を大きい順に入れ換える。N−bestリスコアリングを第2パス探索22に用いる場合、まず、単語ラティスに記憶されている第1パス探索のスコアを基に単語ラティス23からスコアの大きい順からN個の文候補(N−best文候補)を作成し、単語2−gram等の粗い言語モデルによるスコアを単語3−gram等のより高精度の言語モデルによるスコアで置き換えてスコアを計算しなおし、その再計算したスコアの大きい順に文候補の順序を入れ換える。N−bestリスコアリングは、実装が単純であり、確実に認識結果を得ることができる。N−bestリスコアリングの詳細は、例えば、L.Nguyen, R.Schwartz, Y.Zhao, and G.Zavaliagkos :“Is N-best dead?”,Proc.DARPA Speech and Natural Language Workshop, pp.411-414(1994) .等に開示されている。
【0011】
A* 探索では、次の(1)式で定義されるスコアが最も高い仮説nから優先的に展開を行う(best-first探索)。
fn (t)=gn (t)+hn (t) (1)
ここで、tは時刻(フレーム番号)、gn (t)は既に探索を終えた区間のスコア、つまり図10において、単語境界時刻(ノードとも呼ぶ)N0−N1−N2−N3−N4−N5を連ねる仮説のスコアであり、hn (t)はこの単語境界時刻N5より始端までの未探索の区間の推定スコア(ヒューリスティック)である。すなわち、fn (t)は仮説nの全区間に対する推定スコアであり、fn (t)を仮説nのスコアとして用いることは、全ての仮説のスコアを始端から終端までの全区間に対するものを求めていることになる。また、これにより、探索の進行度が異なる(時間的な長さの異なる)仮説同士の比較が可能となる。A* 探索で最もスコアの高い解(最適解)を得るためには、hn (t)の値がその真値(わかったとする)よりも大きくなければならない(A* 適格性)ことが知られている。また、hn (t)がその真値に近いほど効率の高い探索が可能である。A* 探索を第2パス探索22に用いる場合は、図10に示すように、単語ラティス上を第1パス探索21とは逆向きに文末から単語単位の仮説展開を行う。このとき、gn (t)は第1パス探索で用いた言語モデル、音響モデルよりもよりそれぞれ高精度の言語モデル、音響モデル、例えば単語3−gramと、単語内及び単語間の各音素環境を考慮したtriphone HMMを用いて再計算する形で求める。
【0012】
第2パス探索スコアで、hn (t)には単語ラティス23に記憶されている第1パス探索スコアを用いることができる。図10においては現在、計6個の仮説があるが、この中からfn (t)が最大のもの(例えば今の場合、N0−N1−N2−N3−N4−N5)を選んでこれを展開する。A* 探索の詳細は、例えば、コロナ社、Nils.J.Nilsson著、合田周平、増田一比古訳、『人工知能−問題解決のシステム論−』に開示されている。
【0013】
【発明が解決しようとする課題】
ところで、N−bestリスコアリングには、単語ラティスからN−best文候補を作成する際に、1単語のみ異なるような類似候補が多数出現するため、十分な認識精度を得るには、比較的多くの文候補を対象にリスコアリングを行う必要がある、また、より高精度の音響モデルを用いた音響スコアの再計算も可能であるが効率的ではない、等の問題がある。一方、A* 探索には、第1パス探索の結果を第2パス探索でヒューリスティックとして利用できるという利点はあるが、第1パス探索と第2パス探索では用いるモデルが異なるために、真値に近いhn (t)が得られるとは限らないため、入力音声によっては探索の効率が悪くなる場合がある。hn (t)が真値に近く、最高のfn (t)の仮説展開をうまく行うことができればよいが、hn (t)が真値から遠い場合は仮説数が極端に増大し、実時間での認識は困難になる。
【0014】
この発明は、上述のN−bestリスコアリングやA* 探索にある問題点に鑑みてなされたもので、A* 探索のように粗いモデルを用いたパス探索の結果を利用しながら、その後のパス探索を効率よく行い、かつ、時間同期ビーム探索やN−bestリスコアリングのように必ず解を得ることを可能とする連続音声認識方法を提供することを目的とする。
【0015】
【課題を解決するための手段】
この発明によれば、粗いモデルによる探索により得た単語ネットワーク(単語ラティス)を利用して精度の高いモデルを用いる探索の際に探索が最も遅れている仮説を優先的に展開することを繰返し実行する。このようにすることにより展開中の仮説の長さがほぼ揃うことになる。よって仮説展開中に枝刈りを行い、効率的な探索が可能となり、しかも必ず解が得られる。
【0016】
また、精度の高いモデルを用いた探索において、先に得られている単語ラティスに記憶されている各単語境界時刻に5ミリ秒以上又は1フレーム以上の幅をもたせてスコアの計算をする。
【0017】
【発明の実施の形態】
以下にこの発明の実施例を説明する。この実施例では例えば図8に示したように、粗い音響モデルと粗い言語モデルを用いて第1パス探索を入力特徴パラメータのベクトルデータ系列に対して行い、単語ラティス23を生成し、その後、その単語ラティス23上で、高精度音響モデルと高精度言語モデルを用いて、第2パス探索を行う。
【0018】
この実施例において特徴があるのは第2パス探索の手法にある。この第2パス探索は従来のA* 探索と同様に、第1パス探索とは逆向きに文末(入力音声の終端)から単語単位で仮説の展開を行う。この際この発明ではその単語単位の仮説展開を、探索が最も遅れているものから優先的に展開する(Shortest-first探索)。例えば図1に示すように、いま、単語境界時刻(ノード)N0−N1−N3−N8よりなる仮説、N0−N1−N3−N9よりなる仮説、N0−N1−N3−N7よりなる仮説、…,N0−N1−N4−N5−N13よりなる仮説の7個の仮説に展開されている状態において、探索が最も遅れている仮説は、各仮説の先頭ノードN8,N9,N7,N10,N11,N12,N13中のその時刻が最も遅い時刻tのノードN7を選択する。ただし入力音声の始点を基準とし、終端側時間が進むと各時刻を表わしている。このようにして選択したノードN7につきその仮説を展開させる。例えば単語ラティス23(図8)からノードN7に対し始端側に接続されるノードがN14,N15,N16であったとし、ノードN14から始端に至る未探索区間の推定スコア(ヒューリスティック)がhn 1(t)、同様にノードN15,N16からそれぞれ始端に至る未探索区間のヒューリスティックがhn 2(t),hn 3(t)であったとする。
【0019】
ノードN0からN7を経てN14に至る仮説のスコアgn 1(t)を各分析フレームごとに計算して求め、このgn 1(t)とhn 1(t)との和fn 1(t)、つまりその仮説の全区間でのスコアを求める。以下同様にしてノードN15に至る仮説のスコアgn 2(t)と、その全区間でのスコアfn 2(t)求め、またノードN16に至る仮説のスコアgn 3(t)と、その全区間でのスコアfn 3(t)を求める。
【0020】
このように最も遅れている仮説の先端ノードN7からその仮説を1単語分延長する仮説の展開を行い、その1単語分延長するごとに、最も遅れている仮説を選びその仮説を1単語分延長する仮説展開を行う。このようにすると、時間同期ビーム探索のように各仮説の時間的な長さがほぼ揃ろいながら仮説が展開されることになる。よってスコアにもとづく枝刈りが可能となり、この実施例では仮説を展開しながら枝刈りを行う。この枝刈りは二つの手法の一方又は両方を用いることができる。その1つは仮説を延長させる際に求めるその仮説のスコアgni(t)(前記例えばi=1,2,3)を分析フレームごとに計算中において、各分析フレームごとの計算が終ると、その時の全仮説のスコアgn (t)の最高値から一定値θを差し引いたスコアをしきい値として、そのしきい値以下のスコアの仮説はそこで計算を打切り、除去する。
【0021】
例えば図2に示すように、各分析フレームごとの計算で得られるスコアgn (t)の最高値の包絡か曲線31で表わされ、その曲線31よりθだけ小さいスコアの曲線32とすると、仮説展開の計算途中で、スコアgn (t)が曲線32以下となったものは除かれ、スコアが曲線31と32の間に入る仮説のみが残される。なお図2は仮説が延長されるに従ってそのスコアが小さくなるようなスコアの計算方向をとった場合である。
【0022】
枝刈りのもう1つの手法は、1つの仮説について1単語分の仮説の延長展開を行うごとに、全仮説の全区間スコアfn (t)を大きい順にm個取出し、そのm個の仮説を残し、それより小さい仮説は除去する。
以上述べた仮説の展開の手順を図3に示す、まず全仮説の先頭ノード群N={n1,…,nx}のうち時刻が最も遅いものniを選択する(S1)。ノードniから展開されるノード群{ni1,…,niy}を取出す(S2)。その取出したノードから順に1つのノードnij(j=1,…,y)についてその仮説のスコアgn (t)(nij)の計算を開始する(S3)、その各gn (t)(nij)の計算途中で、その分析フレームごとの計算結果から最高値スコアを求め、これよりθだけ引いた値をしきい値とし、計算したスコアがしきい値以下になると(S4)、その計算を中止し、そのノードnijへの展開を停止し、つまりそのノードへの展開する仮説を枝刈りしてステップS7に移る(S12)。
【0023】
計算中にスコアがしきい値以下にならずスコア計算が終了すると(S5)、そのノードnijが始端でなく(S6)、かつ取出したノードnijの全てについての計算が終っていなければ(S7)、ステップS3に戻り、次のノードnijについてスコアの計算を開始する。
全てのnijについて仮説のスコアを計算し終ると(S7)、先に選択したniを先頭ノード群Nから消去し、全てのnijを先頭ノード群Nに加える(S8)。この状態での仮説の数がm個以下であれば(S9)、ステップS1に戻って、再び先頭ノード群から最も時刻が遅れているノードを選択して同様の処理を行う。一方、仮説の数がm以下でなければ、各仮説の全区間スコアfn (t)=gn (t)+hn (t)の大きいものから順にm個を取出し、その仮説のみを残し、他の仮説は除去する(S10)。この除去に伴って、その除去された仮説の先頭ノードも先頭ノード群Nから除かれる。この枝刈り後にステップS1に戻る。
【0024】
ステップS6でnijが始端であれば、その時得られたその仮説の全区間スコアfn (t)=gn (t)(nij)をその仮説について記憶してステップS7に移る(S12)。このnijは再び先頭ノード群Nには加えない(nijに関しては探索終了)。
以上の処理をステップS1で選択する先頭ノードがなくなるまで行い、選択する先頭ノードがなくなった時に、記憶してある仮説スコアの最大のもの又は大きい順に所定数のものの仮説を認識結果として出力する。
【0025】
第1パス探索と第2パス探索では用いるモデルが異なるため、同じ仮説に対しても第1パス探索と第2パス探索では単語境界がずれる可能性がある。そこでこの実施例では第2パス探索の単語境界時刻として単語ラティスに記憶されている第1パス探索の単語境界時刻をそのまま用いるのではなく、前後数フレームのずれを許容して第2パス探索を行う。
【0026】
つまり例えば図4Aに示すように単語ラティスに記憶されている単語境界時刻が単語Aと単語B間はt1、単語Bと単語C間はt2とする。この時、図4Bに示すように単語Aと単語B間はt1のみならず、t1−Δと、t1+Δも境界時刻とし、単語Bと単語C間はt2のみならず、t2−Δとt2+Δも境界時刻とする。この時のスコアの計算は時刻t2+Δから計算を開始し、時刻t2に達した時の値Δg(t2+Δ,t2)を記憶し、更に計算を継続して進めt2−Δに達した時の値Δg(t2+Δ,t2−Δ)を記憶し、更に計算を継続して進め、時刻t1+Δに達した時の値g(t2+Δ,t1+Δ)を記憶し、更に計算を継続して進めt1に達した時の値g(t2+Δ,t1)を記憶し、更に計算を継続して進めt1−Δに達した時の値g(t2+Δ,t1−Δ)を記憶し、t2+Δ,t2,t2−Δからそれぞれt1+Δに仮説を延長した時の各スコアg(t2+Δ,t1+Δ)とg(t2+Δ,t1+Δ)−Δg(t2+Δ,t2)と、g(t2+Δ,t1+Δ)−Δg(t2+Δ,t2−Δ)との3つのうち最大のものを時刻t1+Δのスコアとし、t2+Δ,t2,t2−Δからそれぞれt1に仮説を延長した時の各スコアg(t2+Δ,t1)と、g(t2+Δ,t1)−Δg(t2+Δ,t2)と、g(t2+Δ,t1)−Δg(t2+Δ,t2−Δ)との3つのうち最大のものを時刻t1のスコアとし、t2+Δ,t2,t2−Δからそれぞれt1−Δに仮説を延長した時の各スコアg(t2+Δ,t1−Δ)と、g(t2+Δ,t1−Δ)−Δg(t2+Δ,t2)と、g(t2+Δ,t1−Δ)−Δg(t2+Δ,t2−Δ)との3つのうち最大のものを時刻t1−Δのスコアとする。
【0027】
なお、Δとしては1分析フレーム以上乃至5ミリ秒程度以上とするが、Δの値を大きくすると、計算量が多くなるので数フレーム乃至数10ミリ秒程度以下とする。
上述において仮説の全区間スコアとしてfn (t)=gn (t)+hn (t)を用いたが、hn (t)に対して1に近い重みαを与えてfn (t)=gn (t)+αhn (t)を全区間スコアとしてより精度を高めることもできる。αを求めるには、第1パス探索に用いる粗いモデルを用いて、適当な単語列についてスコアhを計算し、またその単語列について第2パス探索に用いる高精度モデルを用いてスコアgを計算し、α=g/hを計算して重みαを求めればよい。
【0028】
上述においてはこの発明を第2パス探索に適用したが、3段階探索により認識を行う場合にも適用できる。要は粗いモデルを用いてパス探索を行い、単語ラティスを作り、その単語ラティス上で、高い精度のモデルを用いてパス探索を行う場合にこの発明を適用できる。
続いて、この発明者等が開発した大語彙連続発声認識システムに、上記N−bestリスコアリングとこの発明による探索(以後時間非同期ビーム探索と呼ぶ)を用いた場合の比較連続音声認識実験の結果について説明する。なお、大語彙連続音声認識システムについては、電子情報通信学会技術研究報告SP96−102、野田喜昭、松永昭一、嵯峨山茂樹著、“単語グラフを用いた大語彙連続音声認識における近似演算手法の検討”(1997)に詳しく記載されている。音響モデルは、ニュース番組1ケ月分から6700文を学習データとする総状態数2000、混合数8のtriphone HMMである。特徴量は、MFCC12次元とその1次、2次回帰係数、対数パワーとその1次、2次回帰係数の計39次元である。言語モデルは、ニュース番組原稿4年分の50万文と、1ケ月分のニュース番組音声の書き起こしで学習された単語2−gramと単語3−gramである。評価セットはニュース番組5日分から50文(総単語数1800、平均発声長12秒)を選択した。なお、第1パス探索の結果として得られる単語ラティス内に含まれる仮説の中でスコアの最も高い仮説(最適解)の単語誤り率は9.51%であった。
【0029】
N−bestリスコアリングと上記単語境界時刻のずれを許さない時間非同期ビーム探索の実験結果を図5Aに示す。これより、時間非同期ビーム探索ではN−bestリスコアリングよりも高速かつ高精度に解を得られることが分かる。続いて時間非同期ビーム探索で単語境界時刻のずれを考慮し、数msecのずれを許容する効果を調査した。図5Aのずれを許容しない場合(0msec)を基準とし、許容するずれを10から50msecと変化させて実験を行った。結果を図5Bに示す。これより、20msec程度のずれを許容することで、より高精度の解が得られ、またずれを許容すればずれを許容しない場合よりも高い精度の解が得られることが分かる。なおこの実験においてA* 探索の評価も行ったが、第4文章で30分間程度しても解が得られないものが生じた。しかしこの発明によれば実用的時間内に全ての解が得られ、この発明がA* 探索より優れていることが確認できた。
【0030】
【発明の効果】
以上説明したように、この発明によれば、安定して解が得られる時間同期ビーム探索のように展開中の仮説の長さがなるべく揃うような仮説展開と枝刈りを行うことにより、必ず解が得られる。またA* 探索のように粗いモデルを用いたパス探索の結果として単語ラティスに記憶されている単語境界時刻とスコアの情報を利用することと、単語ラティスに記憶されている単語境界時刻を高精度モデルを用いたパス探索の単語境界時刻としてそのまま用いるのではなく、数フレーム分のずれを許容することで、高精度、効率的かつ安定して最終的な解を得られるという効果を奏する。
【図面の簡単な説明】
【図1】この発明の要部である最も探索が遅れた仮説を優先的に展開させることを説明するための仮説展開図。
【図2】スコアビームによる枝刈りを説明する図。
【図3】この発明の要部である最も探索が遅れた仮説を優先的に展開し、かつ枝刈りをする処理手順の例を示す流れ図。
【図4】この発明で単語境界時刻のずれを許容させる説明図。
【図5】この発明の効果を示す実験結果を示す図。
【図6】音声認識処理の一般的な機能構成を示す図。
【図7】文法が許容する単語ネットワークを示す図。
【図8】マルチパス探索による連続音声認識処理の機能構成を示す図。
【図9】図8中の第1パス探索により生成された単語ラティスの例を示す図。
【図10】従来のA* 探索における仮説展開の様子を示す図。
Claims (5)
- 単語と入力音声との音響的な近さを示す音響スコアを求める音響モデルと、単語間の接続関係を規定する文法あるいはその接続しやすさを示す言語スコアを求める言語モデルを備え、
連続的に発声された入力音声に対して、粗い音響モデルと粗い言語モデルを用いて探索して文法の許容する単語列の仮説の中から入力音声に近いものを絞り込み単語ネットワークを作成し、その後前記探索よりも高精度の音響モデルと高精度の言語モデルを用い、上記単語ネットワーク上で探索して上記入力音声に対して単語ネットワークで許容される単語列の仮説の中から入力音声に更に近いものを絞り込み、最終的に入力音声に最も近いひとつあるいは複数の単語列の仮説を認識結果とする連続音声認識方法において、
前記高精度の音響モデルと言語モデルを用いた探索は、単語列の仮説の展開ごとに最も探索が遅れている単語列の仮説を選択して行い、
各単語列の仮説の展開ごとに、得られた単語列のスコアに基づき予め決めた条件から外れた単語列の仮説の展開を打ち切ることを特徴とする連続音声認識方法。 - 上記単語列の仮説の展開打ち切りは、単語列の仮説の展開時に行う既探索区間としてのスコアgn (t)の計算結果又はその計算途中でそのスコアがしきい値以下になるとその単語列の仮説の展開を打ち切ることを特徴とする請求項1記載の連続音声認識方法。
- 上記単語列の仮説の展開打ち切りは、1つのノード(前記単語ネットワーク上の1つの単語境界)についての単語列の仮説展開を終了時に、各単語列の仮説のスコアfn (t)を、既探索区間のスコアgn (t)と未探索区間における先の探索で得られているスコアhn (t)との和とし、この単語列の仮説fn (t)の大きい順にm個の単語列の仮説以外の単語列の仮説の展開を打ち切ることを特徴とする請求項1又は2記載の連続音声認識方法。
- 前記未探索区間のスコアhn (t)に対し重みαを掛けてfn (t)=gn (t)+αhn (t)とすることを特徴とする請求項3記載の連続音声認識方法。
- 前記単語列の仮説の展開時のスコア計算を、前記単語ネットワークに記憶されている単語境界時刻に対し5ミリ秒〜数10ミリ秒ずらした範囲内について行うことを特徴とする請求項1乃至4の何れかに記載の連続音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP26823799A JP3559479B2 (ja) | 1999-09-22 | 1999-09-22 | 連続音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP26823799A JP3559479B2 (ja) | 1999-09-22 | 1999-09-22 | 連続音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001092495A JP2001092495A (ja) | 2001-04-06 |
JP3559479B2 true JP3559479B2 (ja) | 2004-09-02 |
Family
ID=17455820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP26823799A Expired - Lifetime JP3559479B2 (ja) | 1999-09-22 | 1999-09-22 | 連続音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3559479B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005096271A1 (ja) * | 2004-03-30 | 2005-10-13 | Pioneer Corporation | 音声認識装置及び音声認識方法 |
JP5889225B2 (ja) * | 2013-01-31 | 2016-03-22 | 日本電信電話株式会社 | 近似オラクル文選択装置、方法、及びプログラム |
KR101537370B1 (ko) * | 2013-11-06 | 2015-07-16 | 주식회사 시스트란인터내셔널 | 녹취된 음성 데이터에 대한 핵심어 추출 기반 발화 내용 파악 시스템과, 이 시스템을 이용한 인덱싱 방법 및 발화 내용 파악 방법 |
WO2024150422A1 (ja) * | 2023-01-13 | 2024-07-18 | 日本電信電話株式会社 | 音声認識装置、音声認識方法、プログラム |
-
1999
- 1999-09-22 JP JP26823799A patent/JP3559479B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2001092495A (ja) | 2001-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4322815B2 (ja) | 音声認識システム及び方法 | |
JP4465564B2 (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
US5581655A (en) | Method for recognizing speech using linguistically-motivated hidden Markov models | |
US5241619A (en) | Word dependent N-best search method | |
JP4802434B2 (ja) | 音声認識装置及び音声認識方法、並びにプログラムを記録した記録媒体 | |
JP5310563B2 (ja) | 音声認識システム、音声認識方法、および音声認識用プログラム | |
EP1178466B1 (en) | Recognition system using lexical trees | |
Schwartz et al. | Multiple-pass search strategies | |
JP2001249684A (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
US20070038451A1 (en) | Voice recognition for large dynamic vocabularies | |
JP3559479B2 (ja) | 連続音声認識方法 | |
Paul et al. | The Lincoln large-vocabulary stack-decoder HMM CSR | |
JP6026224B2 (ja) | パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体 | |
JP3216565B2 (ja) | 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体 | |
JP3494338B2 (ja) | 音声認識方法 | |
JP3368989B2 (ja) | 音声認識方法 | |
JPH1097275A (ja) | 大語彙音声認識装置 | |
JP3873418B2 (ja) | 音声スポッティング装置 | |
JPH08241096A (ja) | 音声認識方法 | |
Fu et al. | Combination of multiple predictors to improve confidence measure based on local posterior probabilities | |
JP4600705B2 (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
JP3550350B2 (ja) | 音声認識方法及びプログラム記録媒体 | |
Novak et al. | Speed improvement of the tree-based time asynchronous search | |
JP3575975B2 (ja) | 大語彙音声認識方式 | |
JPH0962290A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040427 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040521 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 3559479 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090528 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090528 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100528 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100528 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110528 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120528 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130528 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140528 Year of fee payment: 10 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |