JP2008026721A

JP2008026721A - 音声認識装置、音声認識方法、および音声認識用プログラム

Info

Publication number: JP2008026721A
Application number: JP2006200938A
Authority: JP
Inventors: Takafumi Koshinaka; 孝文越仲
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-07-24
Filing date: 2006-07-24
Publication date: 2008-02-07

Abstract

【課題】入力音声信号の発話速度が時々刻々変動することにより発音変形が生じても、発話速度に応じて正確な音声認識結果を出力できる音声認識装置を提供する。
【解決手段】発話速度推定手段１４は、入力音声信号の発話速度を逐次推定し、言語モデル混合手段１３は、発音変形を考慮して出現確率が設定された複数個の言語モデルを、発話速度推定手段１４の推定結果に基づいた重み係数で混合して新しい言語モデルを生成し、単語列探索手段１２に送る。
【選択図】図１

Description

本発明は音声認識装置および音声認識用プログラムに関し、特に、統計的言語モデルを用いて文発声をテキスト化する大語彙連続音声認識を行う音声認識装置、音声認識方法、および音声認識用プログラムに関する。

従来の音声認識装置の一例が、非特許文献１に記載されている。図２に示すように、この従来の音声認識装置は、音響特徴量算出手段２１と、複数個の単語列探索手段２２１、２２２、…、２２ｎと、音響モデル記憶手段２４１、２４２、…、２４ｎと、言語モデル記憶手段２５と、単語列選択手段２３とから構成されている。

このような構成を有する従来の音声認識装置は次のように動作する。

すなわち、音響特徴量算出手段２１は、音声認識の対象となる音声信号を受け取り、特徴ベクトルの時系列のような形式で特徴量を算出する。単語列探索手段２２１、２２２、…、２２ｎは、各々が異なる発話速度に向けて最適化された音響モデルをそれぞれ音響モデル記憶手段２４１、２４２、…、２４ｎから読み出し、かつ言語モデルを言語モデル記憶手段２５から読み出し、音響特徴量算出手段２１から受け取った特徴量にもっとも適合する単一もしくは複数の単語列すなわち認識結果と、各々の認識結果の確からしさを表すスコアを出力する。単語列選択手段２３は、単語列探索手段２２１、２２２、…、２２ｎからすべての認識結果とスコアを受け取り、もっともよいスコアに対応する認識結果を選択肢し出力する。

大河、鈴木、伊藤、牧野著「持続時間制御機能を持ったマルチパスＨＭＭ」日本音響学会２００３年春季研究発表会講演論文集Ｉ、２００３年３月、ｐｐ．１−２従来の音声認識装置の別の一例が、非特許文献２に記載されている。図３に示すように、この従来の音声認識装置は、音響特徴量算出手段３１と、単語列探索手段３２と、音響モデル記憶手段３３と、発音変形依存言語モデル記憶手段３４とから構成されている。このような構成を有する従来の音声認識装置は次のように動作する。

すなわち、音響特徴量算出手段３１は、前記音響特徴量算出手段２１と同じく、音声認識の対象となる音声信号を受け取り、特徴量を算出する。単語列探索手段３２は、音響モデルを音響モデル記憶手段３３から読み出し、かつ発音変形に依存した言語モデルを発音変形異存言語モデル記憶手段３４から読み出し、音響特徴量算出手段３１から受け取った特徴量にもっとも適合する単一もしくは複数の単語列すなわち認識結果と、各々の認識結果の確からしさを表すスコアを出力する。

ここで発音変形とは、母音の長音化／短音化、母音／子音の脱落／挿入、子音の濁音化／清音化、音節の促音化／拗音化／撥音化、その他発音の怠け等の現象を指す。例えば「洗濯機」という語の発音の基本形は「センタクキ」であるが、一部が促音化した「センタッキ」という発音形があり得る。

発音変形に依存した言語モデルとは、同じ「洗濯機」という単語でも、「センタクキ」と「センタッキ」のように発音が異なる場合は別の単語として扱い、他の単語と連接して現れる確率も、それぞれ異なるように設定された言語モデルである。これは、複数通りの発音形を持つ２種類の単語が連接する場合に、基本形同士は連接しやすいが基本形と変形発音は連接しにくい、というように、ある単語の発音形は隣接する単語の発音形に依存するという仮説に基づいている。

阿部、武田、加藤、小坂、好田著「日本語話し言葉コーパスを用いた発音変形依存モデルによる講演音声認識の性能評価」日本音響学会２００５年秋季研究発表会講演論文集、２００５年９月、ｐｐ．３７−３８

第１の問題点は、発音変形の主たる要因とされる発話速度の変動に対して、必ずしも正確な認識結果を出力できないということである。

その理由は、入力音声信号の発話速度の情報を考慮して音声認識処理を制御していないためである。例えば、前記従来の音声認識装置の第１の例では、入力音声信号のあらゆる発話速度に対応するために、発話速度の高低をいくつかの段階に分け、それぞれの段階に適した音響モデルを備えている。しかしながら、各々の音響モデルを用いて獲得された認識結果は、各認識結果に付随するスコアによって選択する以外の方法がないため、実際の入力音声信号の発話速度と適合していない音響モデルを用いて獲得された（誤った）認識結果が選択されることが少なくない。まして、近年音響モデルとして広く採用されている隠れマルコフモデル（ＨＭＭ）の場合、入力音声信号の長短、すなわち発話速度の大小に対してモデル側で制約をかける仕組みがなく、発話速度ごとに適したＨＭＭを用意したところで、どのＨＭＭもそれなりによいスコアを出力してしまう。つまり、スコアに基づいて認識結果を選択しても、正しい認識結果を選択することが難しい。

また、前記従来の音声認識装置の第２の例では、発話速度の大小が一つの大きな要因となって現れるとされる種々の発音変形が、実際の発話速度に関係なく、すべて１個の静的な言語モデルに格納されている。このため、実際の入力音声信号がもつ発話速度とは異なる発話速度で現れる発音変形が、偶発的に高いスコアを持ち、結果として誤った認識結果を誘発する場合がある。本来的に発音変形は、発話速度ごとにそれぞれ異なるグループを形成していると考えられることから、発話速度の変動に応じて、適切な発音変形を過不足なく備えた言語モデルをもって音声認識処理がなされることが望ましい。

第２の問題点は、想定される幾種類もの発話速度に細かく対応しようとすると、処理量が増大してしまうということである。

その理由は、前記従来の音声認識装置の第１の例のように、発話速度の段階ごとに音響モデルを用意し、音響モデルごとに音声認識処理を行うようにすると、音響モデルの個数に比例して処理量の増加が起こるからである。

本発明の目的は、入力音声信号の発話速度が時々刻々変動することにより発音変形が生じても、発話速度に応じて正確な音声認識結果を出力できる音声認識装置を提供することにある。

本発明の他の目的は、様々の発話速度の音声信号に対しても、比較的少ない処理量で音声認識を行うことができる音声認識装置を提供することにある。

本発明の音声認識装置は、入力音声信号の発話速度を推定する発話速度推定手段と、発話速度ごとに各々最適化された複数の言語モデルを混合して新しい言語モデルを生成する言語モデル混合手段とを備え、前記発話速度推定手段が推定する発話速度に応じて、言語モデル混合手段が言語モデルを逐次更新するよう動作する。このような構成を採用し、入力音声信号の発話速度に適合した言語モデルを用いて入力音声信号に対する音声認識処理を行うことにより本発明の目的を達成することができる。

第１の効果は、入力音声信号の発話速度が時々刻々変動することにより発音変形が生じても、発話速度に応じて正確な音声認識結果を出力できることにある。

その理由は、発話速度推定手段が推定した入力音声信号の発話速度に基づいて、言語モデル混合手段がその発話速度において起こり得る発音変形を過不足なく備えた言語モデルを生成することにより、その発話速度では起こり得ない発音変形から導かれる誤った認識結果が発生することを抑制できるためである。

第２の効果は、様々の発話速度の音声信号に対しても、比較的少ない処理量で音声認識を実行できることにある。

その理由は、発話速度推定手段が入力音声信号の発話速度を推定し、その発話速度に適した言語モデルを作成して音声認識を実行することにより、想定される発話速度のすべてに対して個別に音声認識を実行することを回避できるからである。

次に、本発明を実施するための最良の形態について図面を参照して詳細に説明する。

次に、発明を実施するための最良の形態について図面を参照して詳細に説明する。

図１を参照すると、本発明の第１の実施の形態は、音声認識に必要な特徴量を音声信号から算出する特徴量算出手段１１と、前記特徴量ともっともよく整合する単語列すなわち認識結果を探索する単語列探索手段１２と、前期認識結果から音声信号の発話速度を推定する発話速度推定手段１４と、単語列探索手段１２が参照する音響モデルを記憶する音響モデル記憶手段１５と、単語列探索手段１２が参照する言語モデルを前記発話速度と複数個の言語モデルをもとに作成して出力する言語モデル混合手段１３と、前記複数個の言語モデルを各々記憶する言語モデル記憶手段１６１、１６２、…、１６ｎとから構成されている。

これらの手段はそれぞれ概略次のように動作する。

特徴量算出手段１１は、音声認識に必要な特徴量を、入力音声信号から算出し、単語列探索手段１２に送る。この特徴量について特に規定はなく、元の音声信号そのものであっても別段構わないが、通常は、パワーやメルケプストラム係数（ＭＦＣＣ）、およびそれらの変化率といった特徴パラメータを、特徴ベクトルの時系列のような形式で算出する。なお、個々の特徴ベクトルは一般にフレームという単位で数えられる。

単語列探索手段１２は、入力音声信号から算出された特徴量を、特徴量算出手段１１より順次受け取り、また音響モデル記憶手段１５から音響モデルを受け取り、さらに後述する動作に従って言語モデル混合手段１３にて作成された言語モデルを受け取り、特徴量ともっともよく整合する少なくとも１つの単語列すなわち認識結果を探索し出力する。この単語列の探索は大規模な組合せ最適化問題となるが、近年の音声認識装置で広く用いられているフレーム同期ビームサーチ等の高速なアルゴリズムによって実現することが可能である。

単語列探索手段１２は、認識結果を出力すると同時に、認識結果と音声信号の間の時刻アラインメントも算出し、発話速度推定手段１４に送る。時刻アラインメントまたは単にアラインメントとは、認識結果と特徴量のフレーム、もしくは認識結果と音声信号の時刻の対応関係のことである。具体的には、図４に例を示すように、例えば認識結果から「こんにちわ」という単語が得られたとき、／こ／ん／に／ち／わ／と音節に分割し、入力音声の０〜８７ｍｓｅｃの区間（継続時間長８７ｍｓｅｃ）が／こ／に対応する、というように各音節が入力音声信号のどの区間に対応するかを示したものがアラインメントである。アラインメントは、多くの音声認識システムでは認識結果を得る際に副次的に得られる情報であり、またそうでなくとも、音声認識分野でよく知られたビタビ（Ｖｉｔｅｒｂｉ）アルゴリズムを適用することで容易に得られる。なお、ここでは音節単位のアラインメントの例を示したが、音節以外の単位、例えば音節をさらに細分化した音素を単位としたアラインメントを用いても構わない。

発話速度推定手段１４は、単語列探索手段１２からアラインメント情報を受け取り、入力音声信号の各時刻での発話速度を推定する。発話速度の定義はいくつか考えられるが、例えば単位時間当たりの音節数とすればよく、他の定義でも構わない。単位時間当たり音節数を発話速度とする場合は、音節数を継続時間長で割った値となる。分母の音節数が少ないと推定値がばらつくので、例えば連続する３音節の単位で発話速度を推定することにすると、図４の例では、
こ→２／（８７＋６４）＊１０００＝１３．２音節／秒
ん→３／（８７＋６４＋１０４）＊１０００＝１１．８音節／秒
に→３／（６４＋１０４＋１２８）＊１０００＝１０．１音節／秒
ち→３／（１０４＋１２８＋２５９）＊１０００＝６．１音節／秒
わ→２／（１２８＋２５９）＊１０００＝５．２音節／秒
となる。さらに音声全体としては図５のような発話速度の推移が得られる。発話速度推定手段１４はまた、発話速度の推定値に加えて、推定値の信頼区間（例えば継続時間長の標準偏差の逆数）、あるいは発話速度の確率分布（例えば継続時間長の平均と分散の逆数を母数とした逆ガウス分布）を求める。ただしこれらは必須ではない。

言語モデル混合手段１３は、発話速度推定手段１４から、入力音声信号の各時刻における発話速度の推定値および／または信頼区間等の情報を受け取り、言語モデル記憶手段１６１、１６２、…、１６ｎにそれぞれ記憶された言語モデルを適宜混合した新しい言語モデルを生成し、単語列探索手段１２に送る。以下、言語モデル混合手段１３が言語モデル記憶手段１６１、１６２、…、１６ｎに記憶された複数の言語モデルを混合する方法について、詳しく述べる。

言語モデル記憶手段１６１、１６２、…、１６ｎには、発話速度ごとに最適化された言語モデルが記憶されている。ここで言語モデルとは、通常の大語彙連続音声認識で広く用いられるＮグラム（Ｎ−ｇｒａｍ）言語モデルであり、特に、前出の非特許文献２に記載されている発音変形依存言語モデルである。このような言語モデルは、発話速度ごとに分類された音声データベースの書き起こしテキストから作成することができる。これらの言語モデルでは、例えば「音声認識」という単語を考えた場合、低い発話速度に対応する言語モデルでは「オンセーニンシキ」という読みで出現する確率が高く設定されおり、逆に高い発話速度に対応する言語モデルでは母音が短音化した「オンセニンシキ」という読みで出現する確率が高く設定されているであろう。

言語モデル記憶手段１６１、１６２、…、１６ｎには、言語モデルに加えて、その言語モデルが想定する発話速度の代表値、または発話速度の想定範囲が記憶されている。例えば３個の言語モデル記憶手段１６１，１６２，１６３を備えた実施の形態を考えた場合、各々の言語モデル記憶手段には以下のような情報が記憶されている。
言語モデル記憶手段１６１：言語モデル｛Ｐ低速（ｗ｜ｈ）｝，想定発話速度＝５
言語モデル記憶手段１６２：言語モデル｛Ｐ中速（ｗ｜ｈ）｝，想定発話速度＝１０
言語モデル記憶手段１６３：言語モデル｛Ｐ高速（ｗ｜ｈ）｝，想定発話速度＝１５
ここにＰ（ｗ｜ｈ）は一般的なＮ−ｇｒａｍ言語モデルの表式で、ｗは１個の単語、ｈはｗの直前の単語履歴で、一般的に用いられるｔｒｉｇｒａｍ（３−ｇｒａｍ）言語モデルの場合、ｈは２単語からなる単語列である。Ｐ（ｗ｜ｈ）は単語履歴ｈを仮定した場合にｈの直後にｗが出現する確率を意味する多項分布。また発話速度の単位は音節／秒である。

言語モデル混合手段１３は、前記の言語モデル記憶手段１６１、１６２、…、１６ｎから言語モデルおよびその想定発話速度を受け取り、発話速度推定手段１４から発話速度の推定値を受け取ると、発話速度の推定値と一番近い想定発話速度を持つ言語モデルを選択し、その言語モデルを単語列探索手段１２に送る。あるいは、発話速度の推定値と想定発話速度の近さに比例した重みを設定し、全言語モデルの重み付き平均を取ることによって混合された言語モデルを生成し、単語列探索手段１２に送る。重み平均の取り方はいくつかあり得るが、例えば数１のように計算することができる。

ここにｒは発話速度の推定値、ｒ１，ｒ２，…，ｒｎはそれぞれ言語モデルＰ１（ｗ｜ｈ），Ｐ２（ｗ｜ｈ），…，Ｐｎ（ｗ｜ｈ）に対応する想定発話速度。αは適当な正の定数で、α＝１などと設定する。例えばｎ＝１かつα＝１の場合、数１は、２つの言語モデルの重み付き平均として数２のように書き下すことができる。

言語モデル混合手段１３の別の実施の形態として、言語モデル混合手段１３は、前記の言語モデル記憶手段１６１、１６２、…、１６ｎから言語モデルおよびその想定発話速度を受け取り、発話速度推定手段１４から発話速度の信頼区間を受け取ると、発話速度の信頼区間全域にわたって、各言語モデルの想定発話速度との近さを測り、その近さの総和に比例した重みをかけて、全言語モデルの平均を取ることによって混合された言語モデルを生成し、単語列探索手段１２に送る。重み平均の計算方法は数１や数２に準ずる。

言語モデル混合手段１３のさらに別の実施の形態として、言語モデル混合手段１３は、前記の言語モデル記憶手段１６１、１６２、…、１６ｎから言語モデルおよびその想定発話速度を受け取り、発話速度推定手段１４から発話速度の確率分布Ｐ（ｒ）を受け取ると、数３のような重み平均によって言語モデルを生成し、単語列探索手段１２に送る。なお、発話速度の確率分布Ｐ（ｒ）は、例えば前述した各音節の継続時間長の平均と分散の逆数を母数とした逆ガウス分布のようなパラメトリックモデルとして定義すれば、発話速度推定手段１４や言語モデル混合手段１３で扱うことが可能である。

ここに、重み係数λ１，λ２，…，λｎは各々の言語モデルの事前確率に相当し、発話速度の確率分布Ｐ（ｒ）から数４によって計算される。

なお、発話速度推定手段１４が発話速度を推定するためには、何らかの認識結果が必要であり、認識結果を得るためには言語モデルが必要であるが、その場合は、言語モデル混合手段１３は、暫定的な言語モデル、例えば言語モデル記憶手段１６１、１６２、…、１６ｎに記憶された言語モデルを均等に混合した言語モデル
｛Ｐ１（ｗ｜ｈ）＋Ｐ２（ｗ｜ｈ）＋…＋Ｐｎ（ｗ｜ｈ）｝／ｎ
を生成し、単語列探索手段１２に送るものとする。多少の認識誤りが生じていても発話速度の推定精度はほとんど低下しないことから、発話速度の推定にあたって上記のような言語モデルを用いることに問題はない。

単語列探索手段１２は、言語モデル混合手段１３から受け取った新しい言語モデルを使用して、入力音声信号の特徴量に対して再度単語列探索を行い、認識結果を出力する。

次に、図１および図６のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。

まず、音響特徴量算出手段１１は、認識対象となる音声信号を読み込み（図６のステップＡ１）、パワーやメルケプストラム係数（ＭＦＣＣ）、およびそれらの変化率といった音声認識に必要な特徴量を、特徴ベクトルの時系列のような形式で算出する（ステップＡ２）。次に、単語列探索手段１２は、音響モデル記憶手段１５に記憶された音響モデルを読み込む（ステップＡ３）。また、言語モデル混合手段１３は、言語モデル記憶手段１６１、１６２、…、１６ｎに記憶された言語モデルおよび想定発話速度を順次読み込み（ステップＡ４）、すべての言語モデルを均等に混合した仮言語モデルを生成し、単語列探索手段１２に送る（ステップＡ５）。続いて、単語列探索手段１２は、ステップＡ２で得た特徴量を前記音響モデルおよび言語モデルと照合し、もっともよく整合する単語列、すなわち仮の認識結果を探索し（ステップＡ６）、かつ前記音声信号と認識結果の間で、音素、音節等のレベルでの時刻アラインメントを算出する（ステップＡ７）。さらに、発話速度推定手段１４は、時刻アラインメントから入力音声信号の各時刻における発話速度を推定する、あるいは発話速度の信頼区間または発話速度の確率分布を推定する（ステップＡ８）。言語モデル混合手段１３は、前記発話速度の推定値等および言語モデル記憶手段１６１、１６２、…、１６ｎから読み込んだ想定発話速度を用いて、言語モデル記憶手段１６１、１６２、…、１６ｎから読み込んだ言語モデルの重み付き平均を計算し、新しい言語モデルを作成し、単語列探索手段１２に送る（ステップＡ９）。最後に、単語列探索手段１２は、前記発話速度の推定値に応じて作成された言語モデルと前記音響モデルを前記特徴量と再度照合し、もっともよく整合する単語列を探索し、最終的な認識結果として出力する（ステップＡ１０）。

なお、音響特徴量の算出（ステップＡ２）、音響モデルの読み込み（ステップＡ３）、言語モデルの読み込みと生成（ステップＡ４、Ａ５）は自由に順序を入替えることが可能である。

次に、本実施の形態の効果について説明する。

本実施の形態では、発話速度推定手段１４が仮の認識結果から入力音声信号の発話速度を推定し、その推定された発話速度に応じて、言語モデル混合手段１３が発音変形に依存した複数の言語モデルを混合し単語列探索手段１２に送るように構成されているため、入力音声信号の発話速度が時々刻々変動することにより発音変形が生じていても、発話速度に応じて正確な音声認識結果を出力できる。

次に、本発明の第２の発明を実施するための最良の形態について図面を参照して詳細に説明する。

図７を参照すると、本発明の第２の発明を実施するための最良の形態は、第１の発明を実施するための最良の形態をプログラムにより構成した場合に、そのプログラムにより動作されるコンピュータの構成図である。

当該プログラムは、データ処理装置７３に読み込まれ、データ処理装置７３の動作を制御する。データ処理装置７３は音声認識用プログラム７２の制御により、入力装置７１から入力される音声信号に対し、以下の処理、すなわち第１の実施の形態における音響特徴量算出手段１１、単語列探索手段１２、言語モデル混合手段１３、および発話速度推定手段１４による処理、と同一の処理を実行する。音響モデルおよび言語モデルは、記憶装置７４０に設けられ、音響モデル記憶部７４０、言語モデル記憶部７４１乃至７４ｎに保持される。

本発明によれば、音声信号をテキスト化する音声認識装置や、音声認識装置をコンピュータに実現するためのプログラムといった用途に適用できる。また、音声入力をキーとして種々の情報検索を行う情報検索装置や、音声を伴う映像コンテンツにテキストインデクスを自動付与して検索することができるコンテンツ検索装置、録音された音声データの書き起こし支援装置、といった用途にも適用可能である。

本発明の第１の発明を実施するための最良の形態の構成を示すブロック図である。従来技術の一例を示す示すブロック図である。従来技術の一例を示す示すブロック図である。第１の発明を実施するための最良の形態の動作の具体例を示す図である。第１の発明を実施するための最良の形態の動作の具体例を示す図である。第１の発明を実施するための最良の形態の動作を示す流れ図である。本発明の第２の発明を実施するための最良の形態の構成を示すブロック図である。

符号の説明

１１音響特徴量算出手段
１２単語列探索手段
１３言語モデル混合手段
１４発話速度推定手段
１５音響モデル記憶手段
１６１，１６２，１６ｎ言語モデル記憶手段
２１音響特徴量算出手段
２２１，２２２，２２ｎ単語列探索手段
２３単語列選択手段
２４１，２４２，２４ｎ音響モデル記憶手段
２５言語モデル記憶手段
３１音響特徴量算出手段
３２単語列探索手段
３３音響モデル記憶手段
３４発音変形依存言語モデル記憶手段
７１入力装置
７２音声認識用プログラム
７３データ処理装置
７４記憶装置
７４０音響モデル記憶部
７４１，７４２，７４ｎ言語モデル記憶部

Claims

音声信号もしくはこれに準ずる特徴量から発話速度を推定する発話速度推定手段と、
前記発話速度の推定結果に制御される言語モデルを参照し、前記音声信号もしくは特徴量ともっともよく整合する少なくとも１つの単語列を探索する単語列探索手段と、
を備えたことを特徴とする音声認識装置。
想定発話速度ごとに用意された複数個の発音変形依存言語モデルを、前記発話速度の推定結果に応じて選択または混合する言語モデル混合手段を備えたことを特徴とする請求項１記載の音声認識装置。
前記発話速度推定手段は、前記単語列探索手段が探索した仮の単語列を用いて、前記音声信号中の各時刻の発話速度を推定し、
前記言語モデル混合手段は、前記推定の結果に応じて逐次的に言語モデルの選択または混合を行うことを特徴とする請求項２記載の音声認識装置。
前記発話速度推定手段は、発話速度の推定値、発話速度の信頼区間、発話速度の確率分布のうちの少なくともいずれか１つを求めることを特徴とする請求項１乃至３記載の音声認識装置。
前記言語モデル混合手段は、前記発話速度の推定結果と最も近い想定発話速度に対応する言語モデルを選択することを特徴とする請求項２乃至４記載の音声認識装置。
前記言語モデル混合手段は、前記発話速度の推定値、発話速度の信頼区間、発話速度の確率分布のうちの少なくともいずれか１つに基づいて、各言語モデルの重み係数を決定し、前記重み係数に基づいて前記各言語モデルを混合することを特徴とする請求項２乃至４記載の音声認識装置。
音声信号もしくはこれに準ずる特徴量から発話速度を推定する発話速度推定ステップと、前記発話速度の推定結果に制御される言語モデルを参照し、前記音声信号もしくは特徴量ともっともよく整合する少なくとも１つの単語列を探索する単語列探索ステップとを含むことを特徴とする音声認識方法。
想定発話速度ごとに用意された複数個の発音変形依存言語モデルを、前記発話速度推定ステップにおける前記発話速度の推定結果に応じて選択または混合する言語モデル混合ステップを含むことを特徴とする請求項７記載の音声認識方法。
前記発話速度推定ステップは、前記単語列探索ステップにおいて探索した仮の単語列を用いて、前記音声信号中の各時刻の発話速度を推定し、前記言語モデル混合ステップは、前記発話速度推定ステップにおける前記推定の結果に応じて逐次的に言語モデルの選択または混合を行うことを特徴とする請求項８記載の音声認識方法。
前記発話速度推定ステップは、発話速度の推定値、発話速度の信頼区間、発話速度の確率分布のうちの少なくともいずれか１つを求めることを特徴とする請求項７乃至９記載の音声認識方法。
前記言語モデル混合ステップは、前記発話速度の推定結果と最も近い想定発話速度に対応する言語モデルを選択することを特徴とする請求項８乃至１０記載の音声認識方法。
前記言語モデル混合ステップは、前記発話速度の推定値、発話速度の信頼区間、発話速度の確率分布のうちの少なくともいずれか１つに基づいて、各言語モデルの重み係数を決定し、前記重み係数に基づいて前記各言語モデルを混合することを特徴とする請求項８乃至１０記載の音声認識方法。
音声信号もしくはこれに準ずる特徴量から発話速度を推定する処理と、
前記発話速度の推定結果に制御される言語モデルを参照し、前記音声信号もしくは特徴量ともっともよく整合する少なくとも１つの単語列を探索する処理と、
をコンピュータに実行させるためのプログラム。
想定発話速度ごとに用意された複数個の発音変形依存言語モデルを、前記発話速度の推定結果に応じて選択または混合する処理をコンピュータに実行させるための請求項１３記載のプログラム。
前記発話速度推定は、前記単語列探索手段が探索した仮の単語列を用いて、前記音声信号中の各時刻の発話速度を推定し、前記言語モデル混合は、前記推定の結果に応じて逐次的に言語モデルの選択または混合を行う処理をコンピュータに実行させるための請求項１３のプログラム。
前記発話速度推定は、発話速度の推定値、発話速度の信頼区間、発話速度の確率分布のうちの少なくともいずれか１つを求める処理をコンピュータに実行させる請求項１３乃至１５記載のプログラム。
前記言語モデル混合は、前記発話速度の推定結果と最も近い想定発話速度に対応する言語モデルを選択する処理を実行させる請求項１４乃至１６記載のプログラム。
前記言語モデル混合は、前記発話速度の推定値、発話速度の信頼区間、発話速度の確率分布のうちの少なくともいずれか１つに基づいて、各言語モデルの重み係数を決定し、前記重み係数に基づいて前記各言語モデルを混合する処理を実行させる請求項１４乃至１６記載のプログラム。