JP3576272B2

JP3576272B2 - 音声認識装置および方法

Info

Publication number: JP3576272B2
Application number: JP15653995A
Authority: JP
Inventors: 慶明伊藤; 次郎木山; 浩小島; 進関; 隆一岡
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1995-06-22
Filing date: 1995-06-22
Publication date: 2004-10-13
Anticipated expiration: 2019-10-13
Also published as: JPH096385A; DE69620304T2; EP0750294A3; DE69620304D1; US5799275A; EP0750294B1; EP0750294A2

Description

【０００１】
【産業上の利用分野】
本発明は、入力音声を音声認識するための音声認識装置および方法に関し、より詳しくは順次に入力される入力音声から抽出した特徴パラメータ系列と音韻等が判明している標準パターンの特徴パラメータ系列との間の距離を連続ＤＰ法により計算し、最も距離が近くなった時点での標準パターンの特徴パラメータ系列を検出することにより文単位の音声認識を行う場合に、部分文、たとえば単語の音声認識をも行う音声認識装置および方法に関する。
【０００２】
【従来の技術】
連続音声の中の文の区切り毎に、すなわち、連続ＤＰ法を用いて文スポッティングで音声認識を行う過程で部分文、たとえば単語を認識する方法として、“文スポッティング音声認識における部分文認識と未知語処理方式”、信学論（Ｄ−ＩＩ）、Ｊ７７−Ｄ−ＩＩ、Ｎｏ．８（１９９４−８）、伊藤慶明、木山次郎、岡隆一が提案されている。
【０００３】
この方法では、連続単語で表現された標準パターンの中で予め指定した区間と入力音声との整合度を標準パターン全体の計算過程で同時に求めることにより部分文を認識する。この方法を図１を用いて説明する。図１は横軸に入力音声をとり、音声の内容を文字により表している。縦軸には標準パターンをとり、その内容を文字により表している。なお、実際に音声認識を行う場合には音声から一定時間単位で取り出した音声特徴、これは一般的に特徴パラメータと呼ばれるが、この特徴パラメータを時系列的に並べた特徴パラメータ系列を用いて標準パターンと入力音声の整合を行うが内容の理解を容易にするためにここでは文字を用いて説明することを了解されたい。
【０００４】
標準パターンとして「にわとり」、部分区間として「にわ」、「とり」を指定した場合を考える。「に」の音声が入力されると、全ての組み合わせでの距離計算が行われる。たとえば標準パターン側の「に」と入力音声側の「に」の間の距離や標準パターン側の「に」、「わ」．．．のそれぞれと入力音声パターン側の「に」の間の距離が計算される。次に音声の「わ」が入力されると、標準パターン側の「に」と入力音声パターン側の「わ」との間の距離、標準パターン側の「わ」と入力音声パターン側の「わ」との間の距離が計算される。このようにして得られる距離計算の結果は前時点の距離計算結果に累積されて行く。ある時点の入力音声と標準パターン側の部分パターンとの間の距離計算結果は前の時点の距離計算結果に加えられ、いくつかの計算結果の中から結合の最適ルートが決定される。組み合わせパターンには図２に示すような入力音声と標準パターンの時間的伸縮を吸収するようにした組み合わせが良く用いられる。本例に当てはめるとＡ点は図２のＰ点の位置を部分標準パターン「にわと」と入力音声「にわと」の間の累積距離とすると、この累積距離としてはＡ→Ｂ→Ｐの経路で得られる累積距離と、Ｃ→Ｐの経路で得られる累積距離と，Ｅ→Ｄ→Ｐの経路で得られる累積距離の中の最小距離が用いられる。ちなみに、Ａ点の累積距離は標準パターン側の「にわ」と、入力音声側の「に」との間の累積距離となる。Ｃ点の累積距離は標準パターン側の「にわ」と、入力音声パターン側の「にわ」との間の累積距離となる。このようにして入力音声が入力される毎にいろいろな組み合わせにおける累積距離を決定していく。標準パターン「にわとり」と現時点での入力音声との累積距離に着目していくと、入力音声が「にわとり」になった時点で累積距離がしきい値以下となるので、この時点で入力音声は「にわとり」と認識される。なお、標準パターンは複数用意されているので、各標準パターンについて上述の距離計算（連続ＤＰ法による計算と呼ばれる）を行うことはいうまでもない。このような処理を実行することにより連続的に音声で入力される複数の文の中から特定標準パターンに合致する文をスポッティング的に認識する。
【０００５】
部分文「とり」の累積距離を取得する場合には図１に示すように「にわとり」の累積距離Ｄ２から「にわ」の累積距離Ｄ１を差し引く。
【０００６】
【発明が解決しようとする課題】
しかしながら、この方法では部分文の距離を得るためには部分文の範囲を手動で指示しなければならない。そこで、本発明は上述の点に鑑みて、任意の部分文の標準パターンと入力音声との間の距離を自動的取得できる音声認識装置および方法を提供することを目的とする。
【０００７】
【課題を解決するための手段】
このような目的を達成するために、請求項１の発明は、入力音声信号から抽出した入力音声パターンと文の標準パターンとの間の距離計算を連続ＤＰ法にしたがってフレーム単位で順次に実行し、当該得られたフレーム単位の距離計算結果を前記標準パターンの始端位置から終端位置に向かって累積し、前記標準パターンの終端位置に対応する累積結果がしきい値よりも小さくなった場合に前記標準パターンを前記入力音声パターンの中の一部についての認識結果とする音声認識装置において、前記標準パターンの始端位置と終端位置の間の各フレーム位置で、当該フレーム位置を部分標準パターンの終端とみなし、該フレーム位置の累積結果と前記始端位置に近いフレーム位置の各々の累積結果との差分値を計算する第１の演算処理手段と、当該計算された差分値の中の最小の差分値を検出し、当該検出された最小の差分値に対応する部分標準パターンを前記入力音声パターンの中の部分音声パターンの認識結果とする第２の演算処理手段とを具えたことを特徴とする。
【０００８】
請求項２の発明は、請求項１の発明に加えて、前記部分標準パターンの終端から始端までのフレーム数を特定数以上に制限することを特徴とする。
【０００９】
請求項３の発明は、入力音声信号から抽出した入力音声パターンと標準パターンとの間の距離計算を連続ＤＰ法にしたがってフレーム単位で順次に音声認識装置において実行し、当該得られたフレーム単位の距離計算結果を前記標準パターンの始端位置から終端位置に向かって前記音声認識装置内で累積し、前記標準パターンの終端位置に対応する累積結果がしきい値よりも小さくなった場合に前記標準パターンを前記入力音声パターンの中の一部についての認識結果とする音声認識方法において、前記標準パターンの始端位置と終端位置の間の各フレーム位置で、当該フレーム位置を部分標準パターンの終端とみなし、該フレーム位置の累積結果と前記始端位置に近いフレーム位置の各々の累積結果との差分値を前記音声認識装置内で計算し、当該計算された差分値の中の最小の差分値を前記音声認識装置において検出し、当該検出された最小の差分値に対応する部分標準パターンを前記入力音声パターンの中の部分音声パターンの認識結果として音声認識装置から出力することを特徴とする。
【００１０】
請求項４の発明は、請求項３の発明に加えて、前記部分標準パターンの終端から始端までのフレーム数を特定数以上に制限することを特徴とする。
【００１１】
請求項５の発明は、入力音声信号から抽出した入力音声パターンと文の標準パターンとの間の距離計算を連続ＤＰ法にしたがってフレーム単位で順次に実行し、当該得られたフレーム単位の距離計算結果を前記標準パターンの始端位置から終端位置に向かって累積し、前記標準パターンの終端位置に対応する累積結果がしきい値よりも小さくなった場合に前記標準パターンを前記入力音声パターンの中の一部についての認識結果とする音声認識装置において、前記標準パターンの始端位置と終端位置の間の各フレーム位置で、当該フレーム位置を部分標準パターンの終端とみなし、該フレーム位置の累積結果と前記始端位置に近いフレーム位置の各々の累積結果との差分値を計算する第１の演算処理手段と、当該計算された差分値の中の最小の差分値を検出し、当該検出された最小の差分値に対応する部分標準パターンを前記入力音声パターンの中の部分音声パターンの認識結果とする第２の演算処理手段とを具え、前記標準パターンを現時点から前の時点に向って一定の長さＷの入力音声パターンとすることを特徴とする。
【００１２】
請求項６の発明は、請求項５の発明に加えて、前記一定の長さＷの入力音声パターンを記憶するバッファを有し、フレーム単位の新しい入力音声パターンが得られる毎に当該新しい入力パターン１フレームを前記バッファに累積すると共に、当該バッファの最も古い入力パターン１フレームを前記バッファから消去することを特徴とする。
【００１３】
請求項７の発明は、入力音声信号から抽出した入力音声パターンと文の標準パターンとの間の距離計算を連続ＤＰ法にしたがってフレーム単位で順次に実行し、当該得られたフレーム単位の距離計算結果を前記標準パターンの始端位置から終端位置に向かって累積し、前記標準パターンの終端位置に対応する累積結果がしきい値よりも小さくなった場合に前記標準パターンを前記入力音声パターンの中の一部についての認識結果とする音声認識装置において、前記標準パターンの始端位置と終端位置の間の各フレーム位置で、当該フレーム位置を部分標準パターンの終端とみなし、該フレーム位置の累積結果と前記始端位置に近いフレーム位置の各々の累積結果との差分値を計算する第１の演算処理手段と、当該計算された差分値の中の最小の差分値を検出し、当該検出された最小の差分値に対応する部分標準パターンを前記入力音声パターンの中の部分音声パターンの認識結果とする第２の演算処理手段とを具え、当該定められた部分音声パターンの認識結果複数について、時系列順に隙間および重複なく合成することを特徴とする。
【００１４】
請求項８の発明は、請求項７の発明に加えて、合成された前記認識結果複数を音声で再生出力することを特徴とする。
【００１５】
請求項９の発明は、入力音声信号から抽出した入力音声パターンと文の標準パターンとの間の距離計算を連続ＤＰ法にしたがってフレーム単位で順次に実行し、当該得られたフレーム単位の距離計算結果を前記標準パターンの始端位置から終端位置に向かって累積し、前記標準パターンの終端位置に対応する累積結果がしきい値よりも小さくなった場合に前記標準パターンを前記入力音声パターンの中の一部についての認識結果とする音声認識装置において、前記標準パターンの始端位置と終端位置の間の各フレーム位置で、当該フレーム位置を部分標準パターンの終端とみなし、該フレーム位置の累積結果と前記始端位置に近いフレーム位置の各々の累積結果との差分値を計算する第１の演算処理手段と、当該計算された差分値の中の最小の差分値を検出し、当該検出された最小の差分値に対応する部分標準パターンを前記入力音声パターンの中の部分音声パターンの認識結果とする第２の演算処理手段と、前記部分音声パターンの認識結果についてその時間軸上の通過頻度を計数する計数手段と、当該計数した通過頻度がしきい値以下となる時点を検出し、話題の境界位置と定める境界位置検出手段とを具えたことを特徴とする。
【００１６】
【作用】
請求項１、３の発明では、標準パターンの中の各フレームと入力パターンの各フレームとの間の距離計算および累積計算を行う際に、標準パターンの中のフレームを部分標準パターンの終端とみなし、従来、手動で指示していた位置を自動指定する。また、この始端位置と前の各フレームを始端とする複数の部分標準パターンを設定し、累積距離を差分計算により取得する。取得された累積距離の中で最小の累積距離を有する部分標準パターンが部分入力パターンに対して最も的確性を有する。
【００１７】
請求項２、４の発明では、部分標準パターンとして取り出すフレーム数を特定数以上とすることで文字についての認識を省略し単語単位での認識が可能となる。
【００１８】
請求項５の発明では、標準パターンを入力音声パターンから作成することにより一定長さの入力音声パターンに含まれる複数の同一の単語等の部分文が部分音声の認識結果として得られる。
【００１９】
請求項６の発明では、バッファにＦＩＦＯメモリ等を用いることができメモリ容量の節約が図れる。
【００２０】
請求項７の発明では、部分音声パターンの認識結果が１つに合成されるので、その内容は音声の要約あるいはキーワード群として取扱うことができる。
【００２１】
請求項８の発明では、合成内容を音声で再生出力することにより送話者の要約を耳で確認することができる。
【００２２】
請求項９の発明では、送話者の話題の切れ目を自動検出できる。
【００２３】
【実施例】
以下、図面を使用して、本発明の実施例を詳細に説明する。
【００２４】
（第１実施例）
まず、本実施例における音声認識方法を説明する。
【００２５】
標準パターン列Ｒ，入力パターン列Ｉを以下の数１式で表す。
【００２６】
【数１】
Ｒ＝τ（１），τ（２），…τ（ｒ），…τ（Ｔ）
Ｉ＝ｉ（−∞），…ｉ（ｉ），…ｉ（∞）
ここで、τ（ｒ）は標準パラメータ系列の中のｒ番目の特徴パラメータを示し、ｉ（ｉ）は入力音声から取得した入力パターン系列の中のｉ番目の特徴パラメータを示す。また、本実施例ではこの特徴パラメータが得られた音声の単位部分をフレームと呼び、入力時刻をｔで表すことにする。入力パターンと標準パターンとに共通する区間を標準パターンおよび入力パターンについて以下のように定める。
【００２７】
【数２】
Ｒｃ＝τ（τ１），τ（τ１＋１），…τ（τ２）
Ｉｃ＝ｉ（ｔ１），ｉ（ｔ１＋１），…ｉ（ｔ２）
標準パターンの各フレームτ（τ）では各時刻においてそのフレームを終端とするパスに対し累積距離の履歴を全て保持することによりそのフレーム数前の区間距離はこの履歴の差として計算できる。その区間フレーム数で区間距離を正規化すれば２つの区間の整合度を比較するすることが可能となる。例えば図３で時刻ｔ１においてフレームτ３からτ６までの正規化距離は（Ｄ（６，３）−Ｄ（６，３））／３で求められ、τ３からτ５までの正規化距離（Ｄ（５，３）−Ｄ（５，３））／２等と比較することができる。ここでＤ（τ２，τ１）｛τ１≦τ２｝はフレームτ（τ２）に至るパス上のフレームτ（τ１）における累積距離を表している。これにより連続した音声入力に対して標準パターンの連続ＤＰ計算を行う過程で任意の区間同士の整合度を効率的に計算することができる。また、必要があれば、単語の最短、最長継続時間として履歴フレーム数に制限を与えることも可能である。
【００２８】
連続ＤＰ法では得られた最適パスの中の部分パスについてもその最適性が保証される。たとえば、図４で（ｔ０，τ０）〜（ｔ３，τ３）間で最適となった場合、（ｔｊ，τｊ）〜（ｔ３，τ３）間のパスも最適となる。また、連続ＤＰ法のように始端をフリーとしてｔ０を決定した場合、τ１〜τ３間でも最適パスとなる。しかし、この場合でもτ１〜τ３間が最適となっている保証はなく、τ１〜τ３間には点線で示すような最適パスが存在することも可能である。すなわち、連続ＤＰ法のように始端をフリーとする場合には標準パターン全体の最適パスから得られる部分パスは必ずしも最適パスになるという保証は得られない。しかしながら、部分分スポッティング実験では最適パスになっていなくても性能の低下はみられなかった。
【００２９】
以上の原理に基づき区間累積距離を計算する手順を次に説明する。縦軸を標準パターンの時間軸τ（１≦τ≦Ｔ）、各フレームをτ（τ）とし、横軸を入力音声の時間軸とする。時刻ｔの入力音声のフレームと標準パターンのフレームτとの局所距離をｄ（ｔ，τ）とする。
【００３０】
連続ＤＰの計算で用いる傾斜制限として図２のように対象の重み係数を持つものとする。Ｄ（ｔ１，τ２，τ１）、Ｌ（ｔ，τ２，τ１）、Ｓ（ｔ，τ２，τ１）によりそれぞれ時刻ｔにおけるτ２を終端フレームとするパス上でフレームτ１に至るまでの累積距離、累積重み係数およびフレームτ１を通過した入力時刻を表す。したがって、たとえばＤ（ｔ，τ２，０）を０とすると、Ｄ（ｔ，τ２，τ２）は時刻ｔにおけるフレーム０〜τ２に至るまでの累積距離を表すことになる。また、時刻ｔにおけるτ１〜τ２の区間累積距離はＤ（ｔ，τ２，τ２）−Ｄ（ｔ，τ２，τ１−１））となる。なお、図３におけるＤ（τ１，τ２）はＤ（ｔ，τ１，τ２）のことである。
【００３１】
初期条件を
【００３２】
【数３】
Ｄ（−１，τ２，τ１）＝Ｄ（０，τ２，τ１）＝ＣＯＮＳＴ
Ｌ（−１，τ２，τ１）＝Ｌ（０，τ２，τ１）＝０
Ｓ（−１，τ２，τ１）＝Ｌ（０，τ２，τ１）＝−１
（１≦τ１≦τ２≦Ｔ）
とする。ここでＣＯＮＳＴとは最長のフレーム数（Ｔ）で正規化を行っても整合度が低くなるように大きな定数を与えておく。また、τ２の最大値を設定すれば検出できる共通区間の最長区間となる。次にＤ，Ｌ，Ｓを計算するためのフレーム同期で計算可能な漸化式を示す。
【００３３】
【数４】
τ＝１のとき、
Ｄ（ｔ，１，１）＝２ｄ（ｔ，１）
Ｌ（ｔ，１，１）＝２
Ｓ（ｔ，１，１）＝ｔ
【００３４】
【数５】

ただし、
【００３５】
【数６】
τ＝２のとき、
Ｐ（ｔ，τ，３）＝Ｄ（ｔ，τ−１，τ−１）＋ｄ（ｔ，τ）
Ｑ（ｔ，τ，３）＝Ｌ（ｔ，τ−１，τ−１）＋１
上記の式によって求めた３つのＤＰパス（図２参照）を比較するため以下の式で正規化し、最適パスを決定する。
【００３６】
【数７】
α^＊＝ａｒｇｍｉｎＰ（ｔ，τ，α）／Ｑ（ｔ，τ，α）
α＝１，２，３
求めた最適パスから累積距離の履歴をフレームτに数８式〜数１０式でコピーし、τフレームまでの累積距離、累積重みをＰ（ｔ，τ，α^＊）、Ｑ（ｔ，τ，α^＊）を用いて数１１式を更新する。
【００３７】
【数８】

【００３８】
【数９】

【００３９】
【数１０】

【００４０】
【数１１】
Ｄ（ｔ，τ，τ）＝Ｐ（ｔ，τ，α^＊）
Ｌ（ｔ，τ，τ）＝Ｑ（ｔ，τ，α^＊）
Ｓ（ｔ，τ，τ）＝ｔ
上記の式を図３の例で説明する。時刻ｔにおけるフレームτ６への３つのＤＰパスの各累積距離、累積重みを数５式より求め、数７式より最適パス、すなわち、図２の３つのＤＰパスの中の、累積距離を最小とするＤＰパスを決定する。時刻ｔ−１，フレーム５を始端とするＤＰパスが最適となった場合、（α^＊＝２）である。次に数１０式より、時刻ｔ−１，フレーム５における累積距離の履歴Ｄ（１，５）｛ｔ−１｝〜Ｄ（５，６）｛ｔ−１｝を履歴Ｄ（１，５）｛ｔ｝〜Ｄ（５，６）｛ｔ｝にコピーする。すなわち、式ではＤ（ｔ−１，５，１）〜Ｄ（ｔ−１，５，５）からＤ（ｔ，６，１）〜Ｄ（ｔ，６，５）へのコピーとなる。最後に選択されたパスの累積距離Ｄ（６，６）｛ｔ｝を更新する。累積重みについても同様の処理が必要である
上述したＤＰパスは図２に示すように対称の重み係数を使用したが重み係数といｓｔｅ非対称でフレーム方向にのみ重みを置く傾斜制限を用いれば、上述のＬ，Ｑを省略することができ、数７式および数１１式は以下のように計算が非常に単純となる。
【００４１】
【数１２】

【００４２】
この場合、数８式〜数１０式はＤについてのみ処理すればよいので、計算機、記憶量とも大幅に削減することができる。後述する最長継続時間の制約としてＮｍａｘを与えるためには数８式〜数１０式において条件に１≦τ≦Ｎｍａｘを加えればよい。
【００４３】
以上の処理を音声フレームが入力される毎に実行することにより標準パターンと連続音声パターンとの間の累積距離および部分音声パターンと、部分標準パターンとの間の区間累積距離が求まる。
【００４４】
標準パターン「にわとり」と連続音声の中の「にわとり」と例にとると標準パターンの中の部分標準パターン「に」と連続音声の中の部分音声パターン「に」との間の区間累積距離や部分標準パターン「にわ」と部分音声パターン「にわ」との間の区間累積距離等いろいろな組み合わせの共通区間の累積距離が得られる。しかしながら音韻など非常に短い区間を計算の対称としてもいたづらに計算量が増えるだけであり、実用的ではない。そこで単語レベル程度以上のの音声長さを持つ共通区間を検出し計算の対象とした方が好ましい。そこで最短の共通区間長Ｎｍｉｎを予め決定しておくと以下の処理により最適な共通区間長を得ることができる。
【００４５】
時刻ｔにおいて、フレームτをパスの終端と仮定した場合、フレームτからｎ（ｎ≧Ｎｍｉｎ）前までの区間（τ−ｎ，τ）の整合度Ａ（ｔ，τ，ｎ）は以下の式で求められる。
【００４６】
【数１３】

したがって、全てのフレームτ、全ての区間ｎの中で以下の式で与えられる最小の整合度Ａ（ｔ，τ，ｎ）を与えるｒ^＊，ｎ^＊が時刻ｔにおける最適共通区間を示している。
【００４７】
【数１４】

【００４８】
これより時刻ｔにおける最適共通区間、最適整合度は以下の式で表される。
【００４９】
【数１５】
（Ｓ（ｔ，τ^＊，ｎ^＊），ｔａｕ−ｎ^＊）〜（ｔ，ｔａｕ^＊）
【００５０】
【数１６】
Ａ（ｔ，τ^＊，ｎ^＊）
共通区間を音声認識装置で判断する方法としては
（１）最適整合度の最小となる時刻における最適共通区間を全区間における最適共通区間とする。
【００５１】
一方、フレームと同期して共通区間を検出する方法としては
（２）時間推移を観察し、ローカルミニマムになる箇所を最適共通区間とする。
【００５２】
等が考えられる。
【００５３】
このような音声認識方法を使用した音声認識装置のシステム構成の一例を図５に示す。図５において１１はパーソナルコンピュータ等の情報処理装置である。
【００５４】
マイクロホン１から入力された音声はアナログの電気信号に変換され、Ａ／Ｄ変換器２によりデジタル信号に変換され、パーソナルコンピュータ１１の入出力インタフェース３に入力される。デジタル形態の音声信号に対してたとえば、フーリエ解析等の処理が施され、音声信号のフレーム単位の特徴パラメータが抽出される。標準パターンの作成モードにおいては抽出された特徴パラメータはＣＰＵ４の制御によりハードディスク記憶装置（ＨＤＤ）９に標準パターンとして格納される。このとき、音声の内容を示す文字等がキーボード等の入力装置８から入力され、上記特徴パラメータと関連づけて記憶される。一方、文字認識モードにおいては、パーソナルコンピュータ１１に入力されたデジタル形態の音声信号は特徴パラメータに変換され、ＣＰＵ４により音声認識される。より具体的には、上述した音声認識方法を用いてＨＤＤ９に格納された標準パターンと、音声信号から得られる入力パターンを特徴パラメータ同士で連続ＤＰマッチング法で距離比較（整合）する。
【００５５】
一定周期で入力される音声信号について同様の処理を繰り返し実行し、整合の結果は順次にＲＡＭ６に格納され、その累積結果も格納されていく。さらに本発明に関わる部分パターンについての整合に関連するデータもＲＡＭ６上に格納される。入力音声パターンが標準パターンに合致していると判断されたときにその標準パターンが音声認識結果としてディスプレイ７上に文字形態で表示される。また、Ｄ／Ａ変換器１２を介してスピーカ１３からも音声出力される。また、標準パターンの一部分と入力音声パターンの一部分、たとえば、単語が合致していることもＣＰＵ４により検出され、その音声認識結果がディスプレイ７に表示される。ＣＰＵ４はこれら一連の機器制御をＲＯＭ５に格納されたシステムプログラムに従って実行すると共に上述の音声認識処理をＨＤＤ９に格納された専用のプログラムに従って実行する。
【００５６】
このような構成で実行される音声認識処理を図６および図７を参照しながら説明する。図６は標準パターンを構成するフレームと、入力音声パターンを構成するフレームの整合結果および比較の対象となるフレームの組み合わせ方（ＤＰパス）を示す。図中∞は整合結果としてまったく類似していないことを示し、数値０は類似していることを示す。実際の整合結果は数値形態で表すが説明の都合上かかる表現を用いる。図６の縦軸は標準パターンを表し、横軸は時系列的に入力される入力音声パターンを表す。
【００５７】
図７はＣＰＵ４により実行される音声認識処理の処理手順を示す。この処理手順は実際にはＣＰＵ４が実行可能なプログラム言語の形態でＨＤＤ９に格納されている。説明の便宜上、処理内容については機能表現している。本実施例では２フレーム（文字）以上の単語について最短共通区間（Ｎｍｉｎ＝２）を設定しているものとする。
【００５８】
音声認識モードが指示されると、ＣＰＵ４は図７の処理手順が開始され、計算に必要な初期値が設定される（ステップＳ１０）。マイクロホン１から認識対象の音声が入力されるとパーソナルコンピュータ１１ではフレーム単位で入力音声パターンを入力し特徴パラメータを抽出する（ステップＳ２０）。図６の例では「そ」についてのフレームが得られる。ＣＰＵ４は最初に標準パターンのフレーム「に」、「わ」．．．「り」と入力音声パターンの「そ」との整合をそれぞれ行い、その整合結果を組み合わせ位置に対応させてＲＡＭ５に記憶する。また、その整合結果を用いて初期条件式によりその組み合わせ位置の累積結果の初期値も計算され記憶される（ステップＳ３０）。
【００５９】
次に標準パターンのフレーム「り」についての累積距離としきい値が比較されるこの場合、しきい値以上となるので文の標準パターンとこれまでの入力音声パターンは一致しないと判断される（ステップＳ４０）。
【００６０】
この時点で標準パターン側のフレーム数は１であり、最短共通区間２よりも小さいので、ステップＳ５０からＳ１００の処理を通過して、２番目の入力音声フレームの入力を待つ。２番目の入力音声フレーム「う」が入力されると、ＣＰＵ４は前回と同様標準パターンの各フレームと整合を行い、整合結果を図６の整合位置に対応させてＲＡＭ６に記憶し、文の認識結果の有無を判定する（ステップＳ３０からＳ４０）。
【００６１】
入力音声フレームが２となったので、上述の計算式を用いて標準パターンの部分区間「にわ」と入力音声パターンの部分区間「そう」の整合が行われる。この整合結果がＲＡＭ６に記憶される。また、このときの整合結果が仮の最小値として記憶される（ステップＳ６０→Ｓ８０）。３番目の入力音声のフレーム「ち」が入力されると、図６のＰの位置の累積距離が図２の傾斜制限を用いて数５式により決定される。すなわち、数５式によりＡのパスで定まる累積距離の値、Ｂのパスで定まる累積距離の値、Ｃのパスで定まる累積距離の値の中の最小値がＰの位置の累積距離として決定され、この値を持つパスが最適パス、換言すると、これまでに最も類似するフレームの組み合わせ順として決定される。ＣＰＵ４はその他入力音声フレームのフレーム「ち」と標準パターンのフレームの「り」の組み合わせについても数５式を用いて累積距離を計算する（ステップＳ３０）。
【００６２】
また、ＣＰＵ４は次に上記Ｐ点の位置を起点として前の時点および標準パターンの始端に向かって２つ以上の各フレーム長さの区間距離を累積距離の差分計算（上述）により求めＲＡＭ６に記憶してゆく（ステップＳ４０）。この時点ではフレーム長さ２とフレーム長さ３の２つの区間距離の値が得られる。この内の最小値がこの位置での最適区間距離の値として記憶される（ステップＳ５０）。また、前のフレーム時点で検出された最適区間距離の最小値と新たに得られた最適区間距離の比較が行われ、新たに得られた最適区間距離が最小値として記憶される（ステップＳ７５）。
【００６３】
以下、入力音声フレームが入力される毎にＣＰＵ４は上述の文の標準パターンについての距離計算およびその時点を起点とした所定区間の距離計算および最適区間距離の計算等を行って行く。所定フレーム数、たとえば、５毎にその中での最小最適区間距離を持つ部分標準パターンが認識結果としてディスプレイ７に表示され、次に次回のために仮の最小値が設定される（ステップＳ８０→Ｓ９０→Ｓ１００）。
【００６４】
また、図６の例では時刻ｔ１から累積距離の計算が開始されたパスが時刻ｔ４になった時点で文の最終端Ｑの位置の累積距離がしきい値以下となり、このとき標準パターン「にわとりが」がスポット的にディスプレイ７に認識結果として表示される（ステップＳ６０→Ｓ６５）。
【００６５】
以上説明したように本実施例では従来の文の標準パターンについての連続ＤＰマッチングを行いながら、各時点でその時点を起点とした所定長さの区間距離を計算して標準パターンの一部分と入力音声パターンの中の一部分の一致を検出して行く。したがって、従来のように距離計算を行うべき区間をユーザがわざわざ指定する必要がなくなる。
【００６６】
第１実施例については以下の例を実施できる。
【００６７】
１）文についての認識結果、単語についての認識結果については表示装置、スピーカ、プリンタ等所望の出力装置を使用すればよい。
【００６８】
２）本実施例で標準パターンは文、主語、述語等の単語で構成されるものを説明したが文節程の長さの文章音声をも標準パターンとすることができる。
【００６９】
（第２実施例）
ある話題において重要なキーワード、例えば固有名詞はその話題音声にしばしば出現し、ありふれた単語に比べ長いことが予想される。そこで話題に特有な語は次のような特性を持つと仮定する。
【００７０】
・複数回出現する
・十分な長さを持つ
この仮定のもとでは、発話中の複数の箇所で十分な長さを持った音韻的に類似した区間を抽出することができれば、重要な単語の含まれている区間の多くをカバーすることが可能であろう。
【００７１】
ただし、機能語や副詞、接続詞のようなありふれた単語も上記の前提を満たすことが多いため、音韻的類似度のみを用いたものではそれらも抽出してしまうことは避けられない。したがって、何らかの後処理で、それらの不要な情報を除く必要がある。
【００７２】
そこで、第２実施例では第１実施例で説明した単語等の部分文の検出手法を用いて、一定時間内に複数個出現する部分文を検出する方法を説明する。これにより、話題の中のキーワードのみが検出され、キーワードに付属する副詞、接続詞等の不要部分が排除される。
【００７３】
第２実施例では第１実施例と同様のシステム構成を用いることができるが一部異なる点があるので、相異点を説明することにする。第１実施例では標準パターンは予め用意され、その内容が変化することはない。第２実施例では入力音声から取り出した一定期間内の音声パターンを標準パターンとして取り扱い、その標準パターンの長さを一定期間に維持しつつ、入力音声の入力に応じて標準パターンも変化させる点が第１実施例と異なる。
【００７４】
より具体的には、図８に示すように現時点をｔ−１とすると、この時点でＤＰマッチングに用いる標準パターンは時刻ｔ−Ｗ−１〜時刻ｔ−１までの入力音声から抽出した特徴パラメータ系列、すなわち、入力パターンとなる。本実施例では時刻ｔに新たな音声部分が入力されると、長さＷを維持するために時刻ｔ−Ｗ−１のデータが標準パターンから消去され、新たに時刻ｔのデータが標準パターンに加えられる。
【００７５】
以上の標準パターンを用いた場合、各時点における標準パターンの両端点における累積距離の計算方法が問題となる。本実施例では、時刻ｔにおける標準パターン始端と終端のパス形状を図９のように設定する。それ以外の計算は第１実施例と共通である。
【００７６】
時刻ｔを終端とする入力音声パターン上の区間と標準パターン上の類似した区間の探索は、図１０に示す領域で行われる。ここで、Ｗは標準パターンの最大長、Ｈは類似区間の最大長である。また、Ｄは、ｔを終端とする区間が検出されないために必要な遅延である。もし、Ｄ＝０であれば、常に、自分自身が検出されてしまうからである。全体的に見れば、探索はハッチングで示す領域の範囲で行われることになる。
【００７７】
このような計算を行うためのデータ入力のためのＣＰＵ４の処理手順を図１１に示しておく。音声データのサンプリングが開始されると、標準パターンを記憶するＲＡＭ６上のバッファのフル（満杯）の有無が確認され、フルになるまではバッファに入力のデータ、すなわち音声特徴パラメータが蓄積される（ステップＳ２１０→Ｓ２４０）。この処理を繰り返すとバッファがフルとなるので以後、ＦＩＦＯ（ファーストインファーストアウト）のように、蓄積結果の先頭の音声特徴パラメータが消去され、入力の音声特徴パラメータが蓄積結果の最後尾に追加される（ステップＳ２１０→Ｓ２２０→Ｓ２３０）。
【００７８】
このようにして標準パターンを変化させて、部分文の検出を行うと一定期間Ｗ内に同一あるいは類似の単語が複数回出現すると、第１実施例の計算結果は複数回出現した単語の方が他の単語よりも区間累積距離が小さくなるので、最適区間距離として選択され、複数回出現の単語が類似単語として出力される。
【００７９】
第２実施例の他の例として以下を実施できる。
【００８０】
１）第１実施例の固定の標準パターンを用いた部分文の検出結果をＲＡＭ６に記憶しておく。新たに部分文を検出する毎に記憶内容を参照し、同一のものがある場合にはその出現頻度を計数することによっても複数回出現する部分文を検出できる。ただし、複数回出現する部分文のみを検出する目的であれば第２実施例の方が処理時間も短く、使用するメモリ空間も小さくなる。
【００８１】
（第３実施例）
第１実施例で述べた類似単語の抽出方法を実行して、抽出された複数の類似（区間）の単語は図１２に示すように時系列的に一部重複してしまったり、単語と単語の間に隙間が生じる。したがって、抽出の類似単語を直に再生出力しようとした場合、その再生音声は聞きづらいものとなる。
【００８２】
そこで第３実施例では隙間のある類似単語同士、あるいは時系列的に重複する類似単語を結合した上で連続的に再生処理を行う。
【００８３】
このためのＣＰＵ４の処理手順を図１３に示す。ＣＰＵ４は、第１番目に抽出された類似単語を初期合成類似単語としてＲＡＭ６に格納する。第２番目の類似単語が得られると、初期合成単語の時間軸上の位置関係を類似単語の始端および終端位置を比較することで重複の有無（隙間の有無）を調べる（ステップＳ３００→Ｓ３１０）。この２つの類似単語が重複している場合には、２つの類似単語の一つの重複部分を消去して、２つの類似単語をマージ（結合）する（ステップＳ３２０）。一方、２つの類似単語に隙間が生じている場合には、後の時点の類似単語の始端を前の時点の類似単語の終端に結合する（ステップＳ３３０）。
【００８４】
このようにして合成類似単語を作成すると、前時点で作成された合成類似単語と差し換えてＲＡＭ６に記憶する。以下、新しい類似単語が得られる毎に上述の手順を繰り返すと類似単語間の重複、隙間が除去された１つの類似単語が合成される。一定回数、あるいは一定時間上述の処理を繰り返すと（ステップＳ３４０）、合成処理された類似単語をスピーカ１３から再生する（ステップＳ３５０）。以下、順次類似単語の合成、再生を繰り返す。
【００８５】
（第４実施例）
第１実施例のように文単位の標準パターンを用意しても入力音声が標準パターンと一致することは実用上、ほとんどない。そこで、部分文を検出する訳であるが部分文のみを出力すると、文の切れ目が見つかりにくい。
【００８６】
本実施例では、異なる話題間では、用いられる単語集合が異なることに着目し、複数の話題を含む音声に対し、第１実施例の手法により類似区間の検出を行う。すると、同一話題内での類似区間の区間の対応は多く、異なる話題間での対応は少なくなるであろうことが予測されるので、各時刻において、対応区間を結ぶ線のよぎる頻度、すなわち、通過頻度を数えれば、図１４に示すように話題の境界においては頻度が低くなることが予想される。したがって、対応線の通過頻度が局所的に低い時刻は話題の境界である可能性が高いと考えられる。
【００８７】
そこで、本実施例では検出された類似単語の通過頻度を取得し、特定のしきい値以下になる点を話題の境界と決定する。
【００８８】
このためのＣＰＵ４の処理手順を図１５に示す。ＣＰＵ４は第１実施例で説明した方法により類似単語を検出すると、その類似単語の始端および終端の入力時間の間の期間に長さが矩形の長さに相当し、一定高さをもつ矩形イメージをＲＡＭ６の２次元空間（時間軸と通過頻度軸とで構成）上に作成し、類似単語が検出する毎にこの矩形を通過頻度軸方向に積み上げる。これにより図４に示す通過頻度のグラフがＲＡＭ６上に形成される。このグラフの各時刻毎の使用頻度（通過頻度軸方向のドット数）をしきい値と比較することで話題の境界点時刻が検出される（ステップＳ４００）。この境界点時刻がＲＡＭ６上に記憶される（ステップＳ４１０）。
【００８９】
第４実施例の応用形態として以下を実施できる。
【００９０】
１）本実施例では類似区間の集計をイメージ処理で行う例を示したが、数値計算により各時刻毎の通過頻度を求めてもよい。
【００９１】
【発明の効果】
以上説明したように、請求項１，３の本発明によれば、文の音声認識を行う途中で単語等の認識が可能となり、かつ、従来のように部分標準パターンを手動で指示する必要がなくなる。
【００９２】
請求項２、４の発明では、部分標準パターンとして取り出すフレーム数を特定数以上とすることで文字についての認識を省略し単語単位での認識が可能となる。
【００９３】
これにより処理時間の短縮化がメモリ容量の節約が図れる。
【００９４】
請求項５の発明では、標準パターンを入力音声パターンから作成することにより一定長さの入力音声パターンに含まれる複数の同一の単語等の部分文が部分音声の認識結果として得られる。これにより繰り返し使用される単語等を重要キーワードとして取得できる。
【００９５】
請求項６の発明では、バッファにＦＩＦＯメモリ等を用いることができメモリ容量の節約が図れる。
【００９６】
請求項７の発明では、部分音声パターンの認識結果が１つに合成されるので、その内容は音声の要約あるいはキーワード群として取扱うことができる。
【００９７】
請求項８の発明では、合成内容を音声で再生出力することにより送話者の要約を耳で確認することができる。
【００９８】
請求項９の発明では、送話者の話題の切れ目を自動検出できる。
【図面の簡単な説明】
【図１】従来の部分標準パターンの累積距離を取得する方法を示す説明図である。
【図２】連続ＤＰ法を説明するための説明図である。
【図３】第１実施例の部分標準パターンの累積距離を取得する方法を示す説明図である。
【図４】第１実施例の最適性を示す説明図である。
【図５】第１実施例のシステム構成を示すブロック図である。
【図６】第１実施例に関わる音声認識方法を説明するための説明図である。
【図７】第１実施例に関わる音声認識手順を示すフローチャートである。
【図８】第２実施例の標準パターンを示す説明図である。
【図９】第２実施例の処理を示す説明図である。
【図１０】第２実施例の処理を示す説明図である。
【図１１】第２実施例の処理手順を示すフローチャートである。
【図１２】第３実施例の処理を示す説明図である。
【図１３】第３実施例の処理手順を示すフローチャートである。
【図１４】第４実施例の処理を示す説明図である。
【図１５】第４実施例の処理手順を示すフローチャートである。
【符号の説明】
１マイクロホン
２Ａ／Ｄ変換器
３入出力装置（Ｉ／Ｏ）
４ＣＰＵ
６ＲＡＭ
８入力装置

Claims

入力音声信号から抽出した入力音声パターンと文の標準パターンとの間の距離計算を連続ＤＰ法にしたがってフレーム単位で順次に実行し、当該得られたフレーム単位の距離計算結果を前記標準パターンの始端位置から終端位置に向かって累積し、前記標準パターンの終端位置に対応する累積結果がしきい値よりも小さくなった場合に前記標準パターンを前記入力音声パターンの中の一部についての認識結果とする音声認識装置において、
前記標準パターンの始端位置と終端位置の間の各フレーム位置で、当該フレーム位置を部分標準パターンの終端とみなし、該フレーム位置の累積結果と前記始端位置に近いフレーム位置の各々の累積結果との差分値を計算する第１の演算処理手段と、
当該計算された差分値の中の最小の差分値を検出し、当該検出された最小の差分値に対応する部分標準パターンを前記入力音声パターンの中の部分音声パターンの認識結果とする第２の演算処理手段とを具えたことを特徴とする音声認識装置。
前記部分標準パターンの終端から始端までのフレーム数を特定数以上に制限することを特徴とする請求項１に記載の音声認識装置。
入力音声信号から抽出した入力音声パターンと標準パターンとの間の距離計算を連続ＤＰ法にしたがってフレーム単位で順次に音声認識装置において実行し、当該得られたフレーム単位の距離計算結果を前記標準パターンの始端位置から終端位置に向かって前記音声認識装置内で累積し、前記標準パターンの終端位置に対応する累積結果がしきい値よりも小さくなった場合に前記標準パターンを前記入力音声パターンの中の一部についての認識結果とする音声認識方法において、
前記標準パターンの始端位置と終端位置の間の各フレーム位置で、当該フレーム位置を部分標準パターンの終端とみなし、該フレーム位置の累積結果と前記始端位置に近いフレーム位置の各々の累積結果との差分値を前記音声認識装置内で計算し、
当該計算された差分値の中の最小の差分値を前記音声認識装置において検出し、
当該検出された最小の差分値に対応する部分標準パターンを前記入力音声パターンの中の部分音声パターンの認識結果として音声認識装置から出力することを特徴とする音声認識方法。
前記部分標準パターンの終端から始端までのフレーム数を特定数以上に制限することを特徴とする請求項３に記載の音声認識方法。
入力音声信号から抽出した入力音声パターンと文の標準パターンとの間の距離計算を連続ＤＰ法にしたがってフレーム単位で順次に実行し、当該得られたフレーム単位の距離計算結果を前記標準パターンの始端位置から終端位置に向かって累積し、前記標準パターンの終端位置に対応する累積結果がしきい値よりも小さくなった場合に前記標準パターンを前記入力音声パターンの中の一部についての認識結果とする音声認識装置において、
前記標準パターンの始端位置と終端位置の間の各フレーム位置で、当該フレーム位置を部分標準パターンの終端とみなし、該フレーム位置の累積結果と前記始端位置に近いフレーム位置の各々の累積結果との差分値を計算する第１の演算処理手段と、
当該計算された差分値の中の最小の差分値を検出し、当該検出された最小の差分値に対応する部分標準パターンを前記入力音声パターンの中の部分音声パターンの認識結果とする第２の演算処理手段と
を具え、前記標準パターンを現時点から前の時点に向って一定の長さＷの入力音声パターンとすることを特徴とする音声認識装置。
前記一定の長さＷの入力音声パターンを記憶するバッファを有し、フレーム単位の新しい入力音声パターンが得られる毎に当該新しい入力パターン１フレームを前記バッファに累積すると共に、当該バッファの最も古い入力パターン１フレームを前記バッファから消去することを特徴とする請求項５に記載の音声認識装置。
入力音声信号から抽出した入力音声パターンと文の標準パターンとの間の距離計算を連続ＤＰ法にしたがってフレーム単位で順次に実行し、当該得られたフレーム単位の距離計算結果を前記標準パターンの始端位置から終端位置に向かって累積し、前記標準パターンの終端位置に対応する累積結果がしきい値よりも小さくなった場合に前記標準パターンを前記入力音声パターンの中の一部についての認識結果とする音声認識装置において、
前記標準パターンの始端位置と終端位置の間の各フレーム位置で、当該フレーム位置を部分標準パターンの終端とみなし、該フレーム位置の累積結果と前記始端位置に近いフレーム位置の各々の累積結果との差分値を計算する第１の演算処理手段と、
当該計算された差分値の中の最小の差分値を検出し、当該検出された最小の差分値に対応する部分標準パターンを前記入力音声パターンの中の部分音声パターンの認識結果とする第２の演算処理手段と
を具え、当該定められた部分音声パターンの認識結果複数について、時系列順に隙間および重複なく合成することを特徴とする音声認識装置。
合成された前記認識結果複数を音声で再生出力することを特徴とする請求項７に記載の音声認識装置。
入力音声信号から抽出した入力音声パターンと文の標準パターンとの間の距離計算を連続ＤＰ法にしたがってフレーム単位で順次に実行し、当該得られたフレーム単位の距離計算結果を前記標準パターンの始端位置から終端位置に向かって累積し、前記標準パターンの終端位置に対応する累積結果がしきい値よりも小さくなった場合に前記標準パターンを前記入力音声パターンの中の一部についての認識結果とする音声認識装置において、
前記標準パターンの始端位置と終端位置の間の各フレーム位置で、当該フレーム位置を部分標準パターンの終端とみなし、該フレーム位置の累積結果と前記始端位置に近いフレーム位置の各々の累積結果との差分値を計算する第１の演算処理手段と、
当該計算された差分値の中の最小の差分値を検出し、当該検出された最小の差分値に対応する部分標準パターンを前記入力音声パターンの中の部分音声パターンの認識結果とする第２の演算処理手段と、
前記部分音声パターンの認識結果についてその時間軸上の通過頻度を計数する計数手段と、
当該計数した通過頻度がしきい値以下となる時点を検出し、話題の境界位置と定める境界位置検出手段と
を具えたことを特徴とする音声認識装置。