JP3473704B2

JP3473704B2 - 音声認識装置

Info

Publication number: JP3473704B2
Application number: JP02738093A
Authority: JP
Inventors: 浩明小川; 和夫石井
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1993-01-22
Filing date: 1993-01-22
Publication date: 2003-12-08
Anticipated expiration: 2018-12-08
Also published as: JPH06222790A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声を認識する場合に
用いて好適な音声認識装置に関する。

【０００２】

【従来の技術】従来の音声認識装置は、大きく分けて、
発話者が発声した音声から、例えば単語（語彙）をワー
ドスポッティングする音声認識部と、音声認識部におけ
るワードスポッティングの結果得られた単語候補列を、
あらかじめ用意された、例えば構文情報などを用いて、
文単位で構文解析する解析部とから構成される。

【０００３】このように構成される音声認識装置におい
ては、解析部が音声認識部にワードスポッティングする
単語を要求すると、音声認識部において、発話者が発声
した音声から、その単語がワードスポッティングされ、
解析部に出力される。解析部においては、構文情報を用
いて、音声認識部におけるワードスポッティングの結果
得られた単語候補列が文単位で構文解析される。

【０００４】そして、その構文解析結果に基づいて、ワ
ードスポッティング結果としての単語候補列から、誤っ
た単語候補を除き、正しい文（文章）が得られるように
なされている。

【０００５】

【発明が解決しようとする課題】ところで、従来の音声
認識装置では、解析部より音声認識部にワードスポッテ
ィング処理要求された単語数が多い場合、音声認識部
が、発話者の発話終了時までに、その単語すべてのスポ
ッティング処理を行うことができないときがあった。

【０００６】従って、この場合、入力された音声に対す
る応答が遅れる課題があった。

【０００７】そこで、音声認識部に、解析部よりワード
スポッティング処理要求のあった単語のうちの一部の単
語のスポッティング処理を保留させる方法がある。

【０００８】しかしながら、この方法では、解析部が必
要とする単語のスポッティング処理が行われず、やはり
入力された音声に対する応答が遅れる場合があった。

【０００９】本発明は、このような状況に鑑みてなされ
たものであり、装置の応答速度を向上させるものであ
る。

【００１０】

【課題を解決するための手段】本発明の音声認識装置
は、音声を認識する認識手段としてのワードスポッティ
ング処理部４と、ワードスポッティング処理部４に、音
声中からの単語の音声認識処理を依頼するとともに、ワ
ードスポッティング処理部４の認識結果を解析し、音声
を理解する解析手段としての構文解析部５とを備え、構
文解析部５は、音声認識処理する優先度を単語に付加し
て、ワードスポッティング処理部４に供給し、ワードス
ポッティング処理部４は、音声認識処理する単語の単語
数を、単語の優先度または自身の音声認識処理能力に基
づいて変更し、単語の優先度に基づいて、音声中からの
単語の音声認識処理を行うことを特徴とする。

【００１１】この音声認識装置は、音声の音声区間を検
出する検出手段としての音声区間検出部３をさらに備え
ることができ、ワードスポッティング処理部４に、音声
区間中と音声区間終了後とで、単語の優先度に基づい
て、音声中から音声認識する単語を変更させることがで
きる。

【００１２】さらに、この音声認識装置は、構文解析部
５に、ワードスポッティング処理部４の認識結果の解析
結果に基づいて、単語の優先度を変更させることができ
る。

【００１３】

【００１４】

【作用】上記構成の音声認識装置においては、ワードス
ポッティング処理部４が、音声認識処理する単語の単語
数を、構文解析部５により付加された単語の優先度また
は自身の音声認識処理能力に基づいて変更し、さらに、
単語の優先度に基づいて、音声中からの単語の音声認識
処理を行う。従って、入力された音声に対する応答処理
の迅速化を図ることができる。

【００１５】ワードスポッティング処理部４に、音声区
間中と音声区間終了後とで、単語の優先度に基づいて、
音声中から音声認識する単語を変更させることができる
場合においては、例えば音声区間終了後には、優先度の
最も高い単語だけの音声認識処理を行うようにすること
ができるので、装置のリアルタイム性を向上させること
ができる。

【００１６】構文解析部５に、ワードスポッティング処
理部４の認識結果の解析結果に基づいて、単語の優先度
を変更させることができる場合においては、入力された
音声に対する応答処理の迅速化をさらに図ることができ
る。

【００１７】

【００１８】

【実施例】図１は、本発明の音声認識装置を応用した外
部機器コントローラの一実施例の構成を示すブロック図
である。この外部機器コントローラにおいては、外部機
器操作部６に接続された、例えばＡＶ機器などの外部機
器（図示せず）に対する操作を音声により行うことがで
きるようになされている。

【００１９】即ち、音声入力部１は、入力された音声を
電気信号としての音声信号に変換し、さらにＡ／Ｄ変換
して、音声分析部２に出力する。音声分析部２は、音声
入力部１からの音声信号から、例えば線形予測係数など
の音声の特徴パラメータを１フレームごとに抽出し、音
声区間検出部３およびワードスポッティング処理部４に
時系列に出力する。

【００２０】音声区間検出部３は、音声分析部２からの
特徴パラメータに基づいて、発話の開始されたフレーム
およびその終了したフレーム、即ち音声区間を検出し、
ワードスポッティング処理部４および構文解析部５に出
力する。

【００２１】ワードスポッティング処理部４は、音声区
間検出部３で発話の開始されたフレームが検出される
と、入力された音声に対して、構文解析部５が単語の優
先度とともに出力した各単語のワードスポッティング
を、その単語の優先度に基づいて順次行い、そのワード
スポッティング結果を構文解析部５に出力する。

【００２２】即ち、ワードスポッティング処理部４は、
音声区間検出部３で発話の開始されたフレームが検出さ
れると、まず内蔵する入力バッファ（図示せず）に音声
分析部２からの音声の特徴パラメータを順次記憶し、そ
の入力バッファに記憶された音声の特徴パラメータを１
フレーム分ずつ読み出す。そして、ワードスポッティン
グ処理部４は、構文解析部５が単語の優先度とともに出
力した各単語の標準パターンを、その各単語の優先度に
基づいて、内蔵する入力バッファより順次読み出した入
力パターンとしての特徴パラメータにマッチングさせ、
その結果得られたスコアが所定の閾値以上であった場
合、そのスコアと、マッチングした区間の始点および終
点を構文解析部５に出力する。

【００２３】ここで、スコアとは、スポッティングした
単語の尤度を意味し、その値が大きいほど、スポッティ
ングした単語が確からしいものとする。

【００２４】構文解析部５は、音声区間検出部３で発話
の開始されたフレームが検出される前までに、入力され
る音声の仮説（文章仮説）をたて、音声の解析の初期段
階で必要となる単語すべてに最も高い優先度を付加し、
ワードスポッティング処理部４に出力するとともに、ワ
ードスポッティング処理を要求する。

【００２５】さらに、構文解析部５は、音声区間検出部
３で発話の開始されたフレームが検出された後、ワード
スポッティング処理部４から、ワードスポッティング処
理を要求した各単語のスコア、始点、および終点が供給
されると、そのスコア、もしくは始点から終点までの区
間長、並びに内蔵する構文辞書（図示せず）にあらかじ
め登録された構文情報に基づいて、入力された音声を解
析し、その解析結果に基づいて、新たな文章仮説をたて
る。

【００２６】そして、構文解析部５は、新たな文章仮説
を解析するために必要となった単語に優先度を付加し、
ワードスポッティング処理部４に出力する。

【００２７】なお、この場合、単語の優先度は、構文解
析部５における文章仮説の検索（選択）方法に基づい
て、単語に付加される。即ち、構文解析部５において、
例えばbest-first法により、構文解析が行われている場
合には、確信度の高い文章仮説に関連する単語ほど、よ
り高い優先度が付加される。

【００２８】構文解析部５は、音声区間検出部３で発話
の終了したフレームが検出された後、自身の構文解析結
果に基づいて、ワードスポッティング結果としての単語
候補列から、誤った（誤っていると思われる）単語候補
を除き、正しい（正しいと思われる）文（文章）を得る
と、それを外部機器操作部６に出力する。

【００２９】外部機器操作部６は、構文解析部５より出
力された文（文章）の内容に対応して、そこに接続され
た外部機器を操作する。

【００３０】次に、その動作について説明する。まず音
声入力部１において、入力された音声が電気信号として
の音声信号に変換されてＡ／Ｄ変換され、音声分析部２
に出力される。音声分析部２において、音声入力部１か
らの音声信号から、１フレームごとの音声の特徴パラメ
ータが抽出され、音声区間検出部３およびワードスポッ
ティング処理部４に出力される。

【００３１】音声区間検出部３においては、音声分析部
２からの音声の特徴パラメータに基づいて、発話の開始
されたフレームおよびその終了したフレーム、即ち音声
区間が検出され、ワードスポッティング処理部４および
構文解析部５に出力される。

【００３２】同時に、構文解析部５では、音声区間検出
部３で発話の開始されたフレームが検出される前まで
に、入力される音声の文章仮説がたてられ、音声の解析
の初期段階で必要となる単語すべてに最も高い優先度が
付加されて、ワードスポッティング処理部４に出力され
る。

【００３３】そして、ワードスポッティング処理部４に
おいては、入力された音声に対して、構文解析部５が単
語の優先度とともに出力した各単語のワードスポッティ
ングが、例えば図２に示すフローチャートにしたがって
行われる。

【００３４】即ち、ワードスポッティング処理部４で
は、まずステップＳ１において、構文解析部５より出力
された（構文解析部５からワードスポッティング処理要
求（検索要求）のあった）単語すべての数を示す変数Ｗ
に０がセットされることにより初期化され、ステップＳ
２に進む。ステップＳ２において、構文解析部５より出
力された（構文解析部５からワードスポッティング処理
要求（検索要求）のあった）単語すべての数が変数Ｗに
セットされ、ステップＳ３に進み、音声区間検出部３で
発話の開始されたフレームが検出されたか否かが判定さ
れる。

【００３５】ステップＳ３において、音声区間検出部３
で発話の開始されたフレームが検出されていないと判定
された場合、ステップＳ２に戻り、ステップＳ３で音声
区間検出部３により発話の開始されたフレームが検出さ
れたと判定されるまで、ステップＳ２およびＳ３の処理
を繰り返す。

【００３６】ステップＳ３において、音声区間検出部３
で発話の開始されたフレームが検出されたと判定された
場合、即ち音声入力部１に音声の入力が開始された場
合、ステップＳ４に進み、ワードスポッティング処理部
４がワードスポッティング処理する単語数Ｎを示す変数
Ｎに、変数Ｗに記憶された値（音声区間検出部３で発話
の開始されたフレームが検出される前までに、構文解析
部５よりワードスポッティング処理部４に処理要求のあ
った単語数Ｗ）がセットされ、ステップＳ５に進む。

【００３７】ステップＳ５において、音声分析部２から
出力され、ワードスポッティング処理部４の内蔵する入
力バッファに既に記憶されている音声の特徴パラメータ
が１フレーム分だけ読み出され、ステップＳ６に進み、
ワードスポッティング処理部４の内蔵する入力バッファ
にデータ（音声分析部２より出力される音声の特徴パラ
メータ）が残っているか否かが判定される。ステップＳ
６において、ワードスポッティング処理部４の内蔵する
入力バッファにデータが残っていると判定された場合、
ステップＳ７に進み、ワードスポッティング処理部４が
ワードスポッティング処理する単語数Ｎを示す変数Ｎが
１だけデクリメントされ、ステップＳ８に進む。

【００３８】一方、ステップＳ６において、ワードスポ
ッティング処理部４の内蔵する入力バッファにデータが
残っていないと判定された場合、ステップＳ７をスキッ
プして、ステップＳ８に進み、構文解析部５が単語の優
先度とともに出力した単語の標準パターンのうち、優先
度の高い順にＮ個の単語の標準パターンが、内蔵する入
力バッファより時系列に読み出された入力パターンとし
ての特徴パラメータに順次マッチングされ、その結果得
られたスコアが所定の閾値以上であった場合、スコア、
始点および終点が、ワードスポッティング処理部４の内
蔵する出力バッファ（図示せず）に供給されて記憶され
る。

【００３９】即ち、ステップＳ８においては、構文解析
部５が単語の優先度とともに出力した単語のうち、優先
度の高いＮ個の単語がワードスポッティングされる。

【００４０】ステップＳ８のワードスポッティング処理
の後、ステップＳ９に進み、ワードスポッティング処理
部４の内蔵する入力バッファにデータ（音声分析部２よ
り出力される音声の特徴パラメータ）が残っているか否
かが判定される。ステップＳ９において、ワードスポッ
ティング処理部４の内蔵する入力バッファにデータが残
っていないと判定された場合、ステップＳ１０に進み、
ワードスポッティング処理部４がワードスポッティング
処理する単語数Ｎを示す変数Ｎが１だけインクリメント
され、ステップＳ１１に進む。

【００４１】一方、ステップＳ９において、ワードスポ
ッティング処理部４の内蔵する入力バッファにデータが
残っていると判定された場合、ステップＳ１０をスキッ
プして、ステップＳ１１に進み、構文解析部５から新た
なワードスポッティング処理要求（検索要求）があれ
ば、その要求のあった単語の数が変数Ｗに加算され、ス
テップＳ１２に進む。

【００４２】ステップＳ１２において、ワードスポッテ
ィング処理部４の内蔵する出力バッファにワードスポッ
ティング結果としてのスコア、始点、および終点が記憶
されていれば、それが構文解析部５に供給され、ステッ
プＳ１３に進み、音声区間検出部３で発話の終了したフ
レームが検出されたか否かが判定されるとともに、ワー
ドスポッティング処理部４の内蔵する入力バッファが空
であるか否かが判定される。

【００４３】ステップＳ１３において、音声区間検出部
３で発話の終了したフレームが検出されていないと判定
されるか、またはワードスポッティング処理部４の内蔵
する入力バッファが空でないと判定された場合、ステッ
プＳ５に戻り、再びステップＳ５からの処理を繰り返
す。

【００４４】ステップＳ１３において、音声区間検出部
３で発話の終了したフレームが検出されたと判定され、
且つワードスポッティング処理部４の内蔵するバッファ
が空であると判定された場合、図３に示すステップＳ２
１に進み、今までに構文解析部５からワードスポッティ
ング処理の依頼のあった単語の中で、まだワードスポッ
ティング処理が行われていない単語のうち、優先度の最
も高い単語の数が、変数Ｎにセットされ、ステップＳ２
２に進む。

【００４５】ステップＳ２２において、入力の終了した
音声全体に対して、構文解析部５から今までにワードス
ポッティング処理の依頼のあった単語の中で、まだワー
ドスポッティング処理が行われていない単語のうち、優
先度の最も高いＮ個の単語のワードスポッティング処理
が行われ、ステップＳ２３に進み、ステップＳ２２での
ワードスポッティング処理結果（スコア、始点、および
終点）が構文解析部５に出力され、ステップＳ２４に進
む。

【００４６】ステップＳ２４において、変数Ｗから変数
Ｎが減算され、その減算値が変数Ｗにセットされ、ステ
ップＳ２５に進む。即ち、ステップＳ２４において、今
までに構文解析部５からワードスポッティング処理の依
頼のあった単語の中で、まだワードスポッティング処理
が行われていない単語の数から、ステップＳ２２でワー
ドスポッティング処理が行われた単語の数が減算され、
ステップＳ２５に進む。

【００４７】ステップＳ２５において、構文解析部５か
ら新たなワードスポッティング処理要求（検索要求）が
あれば、その要求のあった単語の数が変数Ｗに加算さ
れ、ステップＳ２６に進み、構文解析部５からのワード
スポッティング処理要求（検索要求）が終了したか否か
が判定されるとともに、変数Ｗが０であるか否かが判定
される。

【００４８】ステップＳ２６において、構文解析部５か
らのワードスポッティング処理要求（検索要求）が終了
していないと判定されるか、または変数Ｗが０でないと
判定された場合、ステップＳ２１に戻り、再びステップ
Ｓ２１からの処理を繰り返す。

【００４９】ステップＳ２６において、構文解析部５か
らのワードスポッティング処理要求（検索要求）が終了
したと判定され、且つ変数Ｗが０であると判定された場
合、処理を終了する。

【００５０】一方、構文解析部５では、ワードスポッテ
ィング処理部４から、ワードスポッティング処理を要求
した各単語のスコア、始点、および終点が供給される
と、そのスコア、もしくは始点から終点までの区間長、
並びに内蔵する構文辞書にあらかじめ登録された構文情
報に基づいて、入力された音声が解析され、その解析結
果に基づいて、新たな文章仮説がたてられるとともに、
その新たな文章仮説を解析するために必要となった単語
に、上述したようにして優先度が付加され（以前にワー
ドスポッティング処理の要求をした単語については、そ
の優先度が変更され）、ワードスポッティング処理部４
に出力される。

【００５１】そして、構文解析部５においては、音声区
間検出部３で発話の終了したフレームが検出された後、
自身の構文解析結果に基づいて、ワードスポッティング
結果としての単語候補列から、誤った（誤っていると思
われる）単語候補が除かれ、正しい（正しいと思われ
る）文（文章）が得られると、それが外部機器操作部６
に出力される。

【００５２】外部機器操作部６においては、構文解析部
５より出力された文（文章）の内容に対応して、そこに
接続された外部機器が操作される。即ち、外部機器操作
部６に接続された外部機器が、例えばＡＶ機器であり、
構文解析部５より出力された文（文章）が、例えば”Ｃ
Ｄ再生”であった場合、外部機器動作部６において、Ｃ
Ｄの再生が開始されるように、ＡＶ機器が操作される。

【００５３】以上のように、音声の入力中においては
（ステップＳ１乃至Ｓ１３）、ワードスポッティング処
理部４の内蔵する入力バッファにデータ（音声の特徴パ
ラメータ）が残っており、ワードスポッティング処理部
４における処理が遅れている場合、ワードスポッティン
グ処理する単語数Ｎが減少され（ステップＳ７）、ま
た、ワードスポッティング処理部４の内蔵する入力バッ
ファが空で、ワードスポッティング処理部４における処
理に余裕がある場合、ワードスポッティング処理する単
語数Ｎが増加され（ステップＳ１０）、ワードスポッテ
ィング処理部４において、構文解析部５からワードスポ
ッティング処理の依頼のあった単語のうち、優先度の高
い順にＮ個の単語のワードスポッティング処理が行われ
る（ステップＳ８）。

【００５４】また、音声の入力の終了後においては（ス
テップＳ２１乃至Ｓ２６）、ワードスポッティング処理
部４において、構文解析部５からワードスポッティング
処理の依頼のあった単語のうち、優先度の最も高い単語
のグループから順次ワードスポッティング処理される。

【００５５】従って、ワードスポッティング処理部４に
おいては、優先度の高い単語、即ち構文解析部５で構文
解析を行うのにより必要な単語から、順次ワードスポッ
ティング処理が行われるので、発話者の発話に対するレ
スポンスを向上させることができる。

【００５６】さらに、ワードスポッティング処理部４の
処理能力に対応して、ワードスポッティング処理する単
語数を変更するようにしたので、ワードスポッティング
処理部４がリアルタイムで処理することのできる数を越
えた単語が、構文解析部５から与えられても、迅速に処
理を行うことができる。

【００５７】以上、本発明の音声認識装置を、外部機器
コントローラに適用した場合について説明したが、本発
明は、外部機器コントローラの他、音声を認識するあら
ゆる装置に適用することができる。

【００５８】なお、本実施例では、ワードスポッティン
グ処理部４におけるワードスポッティングの方法につい
ては言及しなかったが、ワードスポッティング処理部４
においては、例えば、例えばＤＰマッチング法やＨＭＭ
法、特開昭６０−２４９１９８、特開昭６０−２４９１
９９、または特開昭６０−２５２３９６などに開示され
ている音声認識装置の音声認識アルゴリズムなど、あら
ゆる音声認識アルゴリズムに基づいて、ワードスポッテ
ィング処理するようにすることができる。

【００５９】さらに、本実施例においては、音声分析部
２で、音声から、線形予測係数を音声の特徴パラメータ
として抽出するようにしたが、これに限られるものでは
ない。即ち、音声分析部２では、音声から、例えば所定
の周波数帯域幅ごとのパワーやケプストラム係数、パー
コール係数、フォルマント、ゼロクロス数などのあらゆ
る特徴パラメータを抽出するようにすることができる。

【００６０】

【発明の効果】請求項１に記載の音声認識装置によれ
ば、認識手段が、音声認識処理する単語の単語数を、解
析手段により付加された単語の優先度または自身の音声
認識処理能力に基づいて変更し、さらに、単語の優先度
に基づいて、音声中からの単語の音声認識処理を行う。
従って、入力された音声に対する応答処理の迅速化を図
ることができる。

【００６１】請求項２に記載の音声認識装置によれば、
認識手段に、音声区間中と音声区間終了後とで、単語の
優先度に基づいて、音声中から音声認識する単語を変更
させる。従って、例えば音声区間終了後には、優先度の
最も高い単語だけの音声認識処理を行うようにすること
ができるので、装置のリアルタイム性を向上させること
ができる。

【００６２】請求項３に記載の音声認識装置によれば、
解析手段に、認識手段の認識結果の解析結果に基づい
て、単語の優先度を変更させるので、入力された音声に
対する応答処理の迅速化をさらに図ることができる。

【００６３】

【図面の簡単な説明】

【図１】本発明の音声認識装置を応用した外部機器コン
トローラの一実施例の構成を示すブロック図である。

【図２】図１の実施例のワードスポッティング処理部４
の動作を説明するフローチャートである。

【図３】図２のフローチャートに続くフローチャートで
ある。

【符号の説明】

１音声入力部２音声分析部３音声区間検出部４ワードスポッティング処理部５構文解析部６外部機器操作部

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平１−255925（ＪＰ，Ａ) 特開平６−161488（ＪＰ，Ａ) 特開平３−177899（ＪＰ，Ａ) 特開昭63−165900（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/00 - 15/28 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】音声を認識する認識手段と、前記認識手段に、前記音声中からの単語の音声認識処理
を依頼するとともに、前記認識手段の認識結果を解析
し、前記音声を理解する解析手段とを備え、前記解析手段は、音声認識処理する優先度を前記単語に
付加して、前記認識手段に供給し、前記認識手段は、音声認識処理する単語の単語数を、前
記単語の優先度または自身の音声認識処理能力に基づい
て変更し、前記単語の優先度に基づいて、前記音声中か
らの前記単語の音声認識処理を行うことを特徴とする音
声認識装置。
【請求項２】前記音声の音声区間を検出する検出手段
をさらに備え、前記認識手段は、前記音声区間中と前記音声区間終了後
とで、前記単語の優先度に基づいて、前記音声中から音
声認識する単語を変更することを特徴とする請求項１に
記載の音声認識装置。
【請求項３】前記解析手段は、前記認識手段の認識結
果の解析結果に基づいて、前記単語の優先度を変更する
ことを特徴とする請求項１に記載の音声認識装置。