JP2015014665A

JP2015014665A - 音声認識装置及び方法、並びに、半導体集積回路装置

Info

Publication number: JP2015014665A
Application number: JP2013140426A
Authority: JP
Inventors: 勉野中; Tsutomu Nonaka
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2013-07-04
Filing date: 2013-07-04
Publication date: 2015-01-22
Also published as: US20150012275A1; US9190060B2

Abstract

【課題】音声認識におけるシナリオの設定や変更を容易に実現できるようにする。【解決手段】音声認識用の半導体集積回路装置は、複数の音声再生データと複数の変換リストとの関係を表すシナリオフロー情報を指定するコマンドを受信し、シナリオフロー情報に従って、音声再生データ格納部において所定の音声再生データを選択すると共に、変換リスト格納部において所定の変換リストを選択するシナリオ設定部と、所定の変換リストに含まれている各々の単語又は文章の少なくとも一部に対応する標準パターンを音声認識データベースから抽出する標準パターン抽出部と、所定の音声再生データに基づいて出力音声信号を合成する音声信号合成部と、入力された音声信号の周波数成分の分布状態を表す特徴パターンを生成する信号処理部と、特徴パターンと標準パターンとの比較を行い、音声認識結果を出力する一致検出部とを含む。【選択図】図１

Description

本発明は、例えば、音声を認識し、その認識結果に対応する応答や処理を行う音声認識装置及び音声認識方法に関する。さらに、本発明は、そのような音声認識装置及び音声認識方法において用いられる半導体集積回路装置等に関する。

音声認識は、入力される音声信号を解析し、その結果として得られる特徴パターンを、予め収録された音声信号に基づいて音声認識データベースに用意されている標準パターン（「テンプレート」ともいう）と照合することによって、認識結果を得る技術である。一般に、音声認識における選択肢情報は音声認識辞書の中に存在するが、音声認識辞書の更新には時間を要するので、音声認識処理の実行中において選択肢情報の更新が困難であった。

関連する従来技術として、特許文献１には、音声認識サービスを中断させることなく、各音声認識処理部の認識辞書を効率よく更新できるようにする音声認識装置が開示されている。この音声認識装置は、ユーザー端末から受信した音声データを認識辞書に基づいて認識する音声認識装置であって、認識辞書が記憶された認識辞書記憶手段と、認識辞書記憶手段から認識辞書を読み出して自身の共通辞書領域に更新登録し、この認識辞書に基づいて音声データを認識する複数の音声認識処理手段と、音声認識要求に応答して、音声認識処理手段のいずれかに音声データを認識させる音声認識要求受付手段と、辞書更新要求に応答して、音声認識処理手段を複数回に分けて少なくとも１つずつ選択し、その認識辞書を順次に更新させる辞書更新要求受付手段とを含むことが記載されている。

特許文献１の音声認識装置によれば、認識辞書の更新対象となる音声認識処理手段が、複数回に分けて少なくとも１つずつ選択され、その認識辞書が更新されるので、音声認識装置全体としては、音声認識サービスを中断させることなく全ての音声認識処理手段の認識辞書を更新できるようになる。

特開２００８−１５２０９号公報（段落０００９−００１２、図１）

しかしながら、このように、音声認識サービスを中断させることなく音声認識辞書の更新が可能であったとしても、入力される音声信号を解析して得られる特徴パターンを標準パターンと照合する際に、照合される範囲に制限が設けられていない場合には、比較すべき特徴パターンと標準パターンとの組み合わせが膨大な数となって処理時間が増大すると共に、想定する語彙が多くなることで判定が難しくなり認識率が低下してしまうことも考えられる。

この対策としては、例えば、予め設定されたシナリオに沿って音声認識を行うことにより、比較すべき特徴パターンと標準パターンとの組み合わせの数を制限して、認識率の向上を図ることが考えられるが、シナリオを設定するためには、音声認識ソフトウエアを搭載したＣＰＵ（中央演算装置）において、そのシナリオのフロー等をプログラムコードとして組み込むか、又は、外付けの音声認識装置を制御するプログラムコードを作成する必要がある。しかしながら、シナリオを変更する場合には、ＣＰＵにおいてプログラムコードを変更しなければならないので、プログラムコードの変更や評価等に多くの時間や工数を要してしまう。そこで、本発明の目的の１つは、音声認識におけるシナリオの設定や変更を容易に実現できるようにすることである。

上述した課題の少なくとも１つを解決するため、本発明の１つの観点に係る半導体集積回路装置は、音声再生データに基づいてユーザーに質問又はメッセージを発すると共に、ユーザーの音声に対する音声認識の処理を行う音声認識装置において用いられる半導体集積回路装置であって、複数の音声再生データと複数の変換リストとの関係を表すシナリオフロー情報を指定するコマンドを受信し、シナリオフロー情報に従って、音声再生データ格納部に格納されている複数の音声再生データの内から所定の音声再生データを選択すると共に、変換リスト格納部に格納されている複数の変換リストの内から所定の変換リストを選択するシナリオ設定部と、所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、所定の変換リストに含まれている各々の単語又は文章の少なくとも一部に対応する標準パターンを抽出する標準パターン抽出部と、所定の音声再生データに基づいて出力音声信号を合成する音声信号合成部と、入力された音声信号にフーリエ変換を施すことにより音声信号の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成する信号処理部と、音声信号の少なくとも一部から生成された特徴パターンと音声認識データベースから抽出された標準パターンとの比較を行い、音声認識結果を出力する一致検出部とを具備する。

本発明の１つの観点に係る半導体集積回路装置によれば、複数の音声再生データと複数の変換リストとの関係を表すシナリオフロー情報を指定するコマンドを半導体集積回路装置に送信することによって、音声認識におけるシナリオの設定や変更を容易に実現することができる。

ここで、シナリオ設定部が、１回の音声認識動作において、音声再生データ格納部に格納されている複数の音声再生データの内から、シナリオフロー情報に従って所定の音声再生データを選択すると共に、変換リスト格納部に格納されている複数の変換リストの内から、シナリオフロー情報に設定されている所定の変換リストを選択するようにしても良い。その場合には、音声再生データに基づいて発せられる質問又はメッセージに対するユーザーの回答が幾つかの単語又は文章の内の１つに予測される状況を作り出し、それらの単語又は文章を含む変換リストを適用することができる。

また、音声信号合成部が、シナリオ設定部によって選択された第１の音声再生データに基づいて出力音声信号を合成した後に、シナリオ設定部が、一致検出部から出力される音声認識結果に対応してシナリオフロー情報に設定されている第２の音声再生データを選択するようにしても良い。その場合には、第１の音声再生データに基づいて発せられる質問又はメッセージに対するユーザーの回答に応じて、次の質問又はメッセージを表す第２の音声再生データを適切に選択することができる。

さらに、シナリオ設定部は、複数の変換リストの内から、シナリオフロー情報に従って、第２の音声再生データに対応する所定の変換リストを選択するようにしても良い。その場合には、第２の音声再生データに基づいて発せられる質問又はメッセージに対するユーザーの回答に対応して、適切な変換リストを選択することができる。

また、シナリオ設定部は、少なくとも１つの音声再生データ又は少なくとも１つの変換リストを設定又は変更するコマンドを受信して、音声再生データ格納部において少なくとも１つの音声再生データを設定又は変更し、又は、変換リスト格納部において少なくとも１つの変換リストを設定又は変更するようにしても良い。その場合には、音声認識におけるシナリオの設定や変更に伴い、音声再生データ又は変換リストの設定又は変更を容易に実現できるようになる。

本発明の１つの観点に係る音声認識装置は、本発明のいずれかの観点に係る半導体集積回路装置と、複数の音声再生データと複数の変換リストとの対応関係を表すシナリオフロー情報を指定するコマンドを半導体集積回路装置に送信する制御部とを具備する。本発明の１つの観点に係る音声認識装置によれば、シナリオフローを変更する場合に、制御部のＣＰＵにおけるプログラムコードの変更が最小限で済み、音声認識におけるシナリオの変更が容易になる。また、制御部の動作が簡素化されるので、簡単な構成のＣＰＵを制御部において用いることができる。

本発明の１つの観点に係る音声認識方法は、音声再生データに基づいてユーザーに質問又はメッセージを発すると共に、ユーザーの音声に対する音声認識の処理を行う音声認識装置において用いられる音声認識方法であって、複数の音声再生データと複数の変換リストとの関係を表すシナリオフロー情報を指定するコマンドを受信するステップ（ａ）と、シナリオフロー情報に従って、音声再生データ格納部に格納されている複数の音声再生データの内から所定の音声再生データを選択すると共に、変換リスト格納部に格納されている複数の変換リストの内から所定の変換リストを選択するステップ（ｂ）と、所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、所定の変換リストに含まれている各々の単語又は文章の少なくとも一部に対応する標準パターンを抽出するステップ（ｃ）と、所定の音声再生データに基づいて出力音声信号を合成するステップ（ｄ）と、入力された音声信号にフーリエ変換を施すことにより音声信号の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成するステップ（ｅ）と、音声信号の少なくとも一部から生成された特徴パターンと音声認識データベースから抽出された標準パターンとの比較を行い、音声認識結果を出力するステップ（ｆ）とを具備する。

本発明の１つの観点に係る音声認識方法によれば、複数の音声再生データと複数の変換リストとの関係を表すシナリオフロー情報を指定するコマンドを受信することによって、音声認識におけるシナリオの設定や変更を容易に実現することができる。

本発明の一実施形態に係る音声認識装置の構成例を示すブロック図。図１に示す音声認識装置において用いられる音声認識方法を示すフロー図。音声再生データによって表される質問又はメッセージの例を示す図。変換リスト格納部に格納されている変換リストの例を示す図。ホストＣＰＵからシナリオ設定部に送信される指定コマンドの例を示す図。図５に示す指定コマンドによって設定される音声認識シナリオを示す図。音声再生データによって表されるフレーズの例を示す図。変換リスト格納部に格納されている変換リストの例を示す図。第１の音声認識シナリオを設定する第１の指定コマンドの例を示す図。図９に示す指定コマンドによって設定される音声認識シナリオを示す図。第２の音声認識シナリオを設定する第２の指定コマンドの例を示す図。図１１に示す指定コマンドによって設定される音声認識シナリオを示す図。

以下、本発明の実施形態について、図面を参照しながら詳しく説明する。
図１は、本発明の一実施形態に係る音声認識装置の構成例を示すブロック図である。音声認識装置１００は、例えば、自動販売機、家電製品、住宅設備、車載装置（ナビゲーション装置等）、又は、携帯端末等に搭載される。音声認識装置１００は、音声再生データに基づいてユーザーに質問又はメッセージを発すると共に、音声認識において変換候補となる複数の単語又は文章を含む変換リストを用いてユーザーの音声を認識し、その認識結果に対応する応答や処理を行う。

図１に示すように、音声認識装置１００は、音声入力部１０と、Ａ／Ｄ変換器２０と、音声認識用の半導体集積回路装置３０と、Ｄ／Ａ変換器４０と、音声出力部５０と、制御部６０とを含んでいる。なお、音声入力部１０、Ａ／Ｄ変換器２０、Ｄ／Ａ変換器４０、及び、音声出力部５０の少なくとも一部を、半導体集積回路装置３０に内蔵しても良い。

制御部６０は、ホストＣＰＵ（中央演算装置）６１と、格納部６２とを含んでいる。ホストＣＰＵ６１は、格納部６２の記録媒体に記録されているソフトウェア（音声認識制御プログラム）に基づいて動作する。記録媒体としては、ハードディスク、フレキシブルディスク、ＭＯ、ＭＴ、ＣＤ−ＲＯＭ、又は、ＤＶＤ−ＲＯＭ等を用いることができる。

ホストＣＰＵ６１は、音声認識用の半導体集積回路装置３０に制御信号を供給することにより、半導体集積回路装置３０における音声認識動作を制御する。また、ホストＣＰＵ６１は、複数の音声再生データと複数の変換リストとの関係を表すシナリオフロー情報を指定する指定コマンドを、半導体集積回路装置３０に送信する。さらに、ホストＣＰＵ６１は、少なくとも１つの音声再生データ又は少なくとも１つの変換リストを設定又は変更（追加若しくは削除）する設定コマンドを、半導体集積回路装置３０に送信する。

音声入力部１０は、音声を電気信号（音声信号）に変換するマイクロフォンと、マイクロフォンから出力される音声信号を増幅する増幅器と、増幅された音声信号の帯域を制限するローパスフィルタとを含んでいる。Ａ／Ｄ変換器２０は、音声入力部１０から出力されるアナログの音声信号をサンプリングすることにより、ディジタルの音声信号（音声データ）に変換する。例えば、音声データにおける音声周波数帯域は１２ｋＨｚであり、ビット数は１６ビットである。

半導体集積回路装置３０は、音声再生データ格納部３１と、変換リスト格納部３２と、シナリオ設定部３３と、信号処理部３４と、音声認識データベース（ＤＢ）格納部３５と、標準パターン抽出部３６と、一致検出部３７と、音声信号合成部３８と、音声合成データベース（ＤＢ）格納部３９とを含んでいる。なお、音声再生データ格納部３１、変換リスト格納部３２、音声認識データベース格納部３５、及び、音声合成データベース格納部３９の少なくとも一部を、半導体集積回路装置３０に外付けされるメモリー等に内蔵しても良い。

音声再生データ格納部３１は、ユーザーに質問又はメッセージを発するために用いられる複数の音声再生データを格納する。また、変換リスト格納部３２は、音声認識において変換候補となる複数の単語又は文章のテキストデータを各々が含む複数の変換リストを格納する。シナリオ設定部３３は、複数の音声再生データと複数の変換リストとの関係を表すシナリオフロー情報を指定する指定コマンドを、ホストＣＰＵ６１から受信する。

シナリオ設定部３３は、シナリオフロー情報に従って、１回の音声認識動作において、音声再生データ格納部３１に格納されている複数の音声再生データの内から１つの音声再生データを選択すると共に、変換リスト格納部３２に格納されている複数の変換リストの内から１つの変換リストを選択する。これにより、音声認識におけるシナリオの設定や変更を容易に実現することができる。

また、シナリオ設定部３３は、少なくとも１つの音声再生データ又は少なくとも１つの変換リストを設定又は変更する設定コマンドをホストＣＰＵ６１から受信する。シナリオ設定部３３は、設定コマンドに従って、音声再生データ格納部３１において少なくとも１つの音声再生データを設定又は変更したり、又は、変換リスト格納部３２において少なくとも１つの変換リストを設定又は変更したりすることができる。これにより、音声認識におけるシナリオの設定や変更に伴って、音声再生データ又は変換リストの設定又は変更を容易に実現することができる。

信号処理部３４は、入力された音声信号にフーリエ変換を施すことにより音声信号の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成する。生成された特徴パターンは、一致検出部３７に出力される。また、信号処理部３４は、入力された音声信号のレベルが所定の値を超えたときに、音声検出信号を活性化して一致検出部３７及びホストＣＰＵ６１に出力する。これにより、ユーザーからの要求又は回答の有無を判定することができる。

ここで、音声信号から特徴パターンを求める手法の一例について説明する。信号処理部３４は、入力された音声信号にフィルタ処理を施して高域成分を強調する。次に、信号処理部３４は、音声信号によって表される音声波形にハミング窓をかけることにより、時系列の音声信号を所定の時間毎に区切って複数のフレームを作成する。さらに、信号処理部３４は、フレーム毎に音声信号をフーリエ変換することにより、複数の周波数成分を抽出する。各々の周波数成分は複素数であるので、信号処理部３４は、各々の周波数成分の絶対値を求める。

信号処理部３４は、それらの周波数成分に、メル尺度に基づいて定められた周波数領域の窓をかけて積分することにより、窓の数に対応する数の数値を求める。さらに、信号処理部３４は、それらの数値の対数をとって、対数値を離散コサイン変換する。これにより、周波数領域の窓が２０個であれば、２０個の数値が得られる。

このようにして得られた数値の内で低次のもの（例えば、１２個）が、ＭＦＣＣ（メル周波数ケプストラム係数）と呼ばれる。信号処理部３４は、フレーム毎にＭＦＣＣを算出し、ＨＭＭ（隠れマルコフモデル）に従ってＭＦＣＣを連結して、時系列で入力された音声信号に含まれている各々の音素に対応するＭＦＣＣとして特徴パターンを求める。

ここで、「音素」とは、ある言語において同じとみなされる音の要素を意味する。以下においては、言語として日本語が用いられる場合について説明する。日本語の音素としては、「ａ」、「ｉ」、「ｕ」、「ｅ」、「ｏ」の母音と、「ｋ」、「ｓ」、「ｔ」、「ｎ」等の子音と、「ｊ」、「ｗ」の半母音と、「Ｎ」、「Ｑ」、「Ｈ」の特殊モーラとが該当する。

音声認識データベース格納部３５は、所定の言語において用いられる各種の音素について周波数成分の分布状態を表す標準パターンを含む音声認識データベースを格納する。音声認識データベースにおいては、各種の音素を表すテキストデータと、選択肢情報としての標準パターンとが、対応付けられている。

標準パターンは、多数（例えば、２００人程度）の話者が発した音声を用いて予め作成される。標準パターンの作成においては、各々の音素を表す音声信号からＭＦＣＣが求められる。ただし、多数の話者が発した音声を用いて作成されたＭＦＣＣにおいては、それぞれの数値がばらつきを有している。

従って、各々の音素についての標準パターンは、多次元空間（例えば、１２次元空間）において、ばらつきを含む広がりを有している。信号処理部３４に入力された音声信号から生成された特徴パターンが標準パターンの広がりの範囲内に入っていれば、両者の音素が一致していると判定される。

また、１つの音声認識データベースではなく、複数の音声認識データベースを用いるようにしても良い。例えば、音声認識データベース格納部３５は、年齢及び性別の異なる複数群の話者の音声を収録して得られた音声信号に基づいて生成された複数の音声認識データベースを格納しても良い。その場合に、一致検出部３７は、複数の音声認識データベースの内から、音素の一致を良好に検出できる音声認識データベースを選択して使用することができる。

あるいは、音声認識装置を使用するユーザーの年齢及び性別を特定できる場合には、音声認識データベース格納部３５は、年齢及び性別の異なる複数群の話者の音声を収録して得られた音声データに基づいて生成された複数の音声認識データベースを、年齢及び性別を特定する情報に対応付けて格納しても良い。その場合に、一致検出部３７は、音声認識データベース格納部３５に格納されている複数の音声認識データベースの内から、音声認識装置を使用するユーザーの年齢及び性別を特定する情報に従って１つの音声認識データベースを選択して使用することができる。

標準パターン抽出部３６は、音声認識データベース格納部３５に格納されている音声認識データベースから、シナリオ設定部３３によって選択された変換リストに含まれている各々の単語又は文章の少なくとも一部に対応する標準パターンを抽出する。

一致検出部３７は、音声検出信号が活性化されているときに動作し、入力された音声信号の少なくとも一部から生成された特徴パターンを、音声認識データベースから抽出された標準パターンと比較することによって、両者の一致を検出する。

例えば、一致検出部３７は、入力された音声信号の先頭の音節から生成された特徴パターンを、変換リストに含まれているテキストデータによって表される各々の単語又は文章の先頭の音節に対応する標準パターンと比較する。変換リストにおいて、一致が検出された音節を先頭に有する変換候補が１つだけ存在する場合には、一致検出部３７は、その変換候補が変換後の単語又は文章であると判定しても良い。一方、変換リストにおいて、一致が検出された音節を先頭に有する複数の変換候補が存在する場合には、一致検出部３７は、変換候補が１つに絞られるまで、一致を検出すべき音節の範囲を拡大しても良い。

ここで、「音節」とは、１個の母音を主音とし、その母音単独で、あるいは、その母音の前後に１つ又は複数の子音を伴って構成される音のまとまりを意味する。また、半母音や特殊モーラも、音節を構成することができる。即ち、１つの音節は、１つ又は複数の音素によって構成される。日本語の音節としては、「あ」、「い」、「う」、「え」、「お」、「か」、「き」、「く」、「け」、「こ」等が該当する。

例えば、音節「あ」に対応する標準パターンとは、音節「あ」を構成する音素「ａ」を表す標準パターンのことである。また、音節「か」に対応する標準パターンとは、音節「か」を構成する第１番目の音素「ｋ」を表す標準パターンと、音節「か」を構成する第２番目の音素「ａ」を表す標準パターンとの組み合わせのことである。

入力された音声信号の１つの音節が１つの音素で構成されている場合には、その音素の一致が検出されれば、音節の一致が検出されたことになる。一方、入力された音声信号の１つの音節が複数の音素で構成されている場合には、それらの音素の一致が検出されれば、音節の一致が検出されたことになる。

特徴パターンと標準パターンとの間で上述したような一致が検出されると、一致検出部３７は、変換候補となる複数の単語又は文章の内で一致が検出された音節を有する単語又は文章を特定する情報、例えば、その単語又は文章を表すテキストデータを、音声認識結果として出力する。これにより、ホストＣＰＵ６１は、半導体集積回路装置３０に入力された音声信号の少なくとも一部に対応する単語又は文章を認識することができる。

音声信号合成部３８は、シナリオ設定部３３によって選択された音声再生データに基づいて、出力すべき音声を表す出力音声信号を合成する。音声再生データは、テキストデータであっても良い。その場合には、出力音声信号を合成するために、音声合成データベース格納部３９に格納されている音声合成データベースが用いられる。音声合成データベースには、各種の音素について音声波形を表す音声データが含まれており、音声信号合成部３８は、テキストデータによって表される単語又は文章に含まれている複数の音素について音声データを繋ぎ合わせることにより、出力音声信号を合成する。

Ｄ／Ａ変換器４０は、音声信号合成部３８から出力されるディジタルの音声信号を、アナログの音声信号に変換する。音声出力部５０は、Ｄ／Ａ変換器４０から出力されるアナログの音声信号を電力増幅する電力増幅器と、電力増幅された音声信号に応じて音声を発するスピーカーとを含んでいる。スピーカーは、シナリオ設定部３３によって選択された音声再生データによって表される質問又はメッセージを、音声として出力する。

シナリオ設定部３３は、１回の音声認識動作において、音声再生データ格納部３１に格納されている複数の音声再生データの内から、シナリオフロー情報に従って１つの音声再生データを選択すると共に、変換リスト格納部３２に格納されている複数の変換リストの内から、選択された音声再生データに対応してシナリオフロー情報に設定されている１つの変換リストを選択する。

シナリオフロー情報には、各々の音声再生データに基づいて発せられる質問又はメッセージに対する回答として変換候補となる複数の単語又は文章を含む変換リストが設定されている。これにより、音声再生データに基づいて発せられる質問又はメッセージに対するユーザーの回答が幾つかの単語又は文章の内の１つに予測される状況を作り出し、それらの単語又は文章を含む変換リストを適用することができる。

また、音声信号合成部３８が、シナリオ設定部３３によって選択された第１の音声再生データに基づいて出力音声信号を合成し、第１の音声再生データに基づいて質問又はメッセージが発せられた後に、シナリオ設定部３３は、一致検出部３７から出力される音声認識結果に対応して第２の音声再生データを選択する。これにより、第１の音声再生データに基づいて発せられる質問又はメッセージに対するユーザーの回答に応じて、次の質問又はメッセージを表す第２の音声再生データを適切に選択することができる。

さらに、シナリオ設定部３３は、変換リスト格納部３２に格納されている複数の変換リストの内から、シナリオフロー情報に従って、第２の音声再生データに対応する変換リストを選択する。これにより、第２の音声再生データに基づいて発せられる質問又はメッセージに対するユーザーの回答に対応して、適切な変換リストを選択することができる。

（音声認識方法）
次に、本発明の一実施形態に係る音声認識方法について、図１及び図２を参照しながら説明する。この音声認識方法は、音声再生データに基づいてユーザーに質問又はメッセージを発すると共に、音声認識において変換候補となる複数の単語又は文章を含む変換リストを用いてユーザーの音声を認識する音声認識装置において用いられる。

図２は、図１に示す音声認識装置において用いられる音声認識方法を示すフローチャートである。図２のステップＳ１において、ホストＣＰＵ６１が、音声認識用の半導体集積回路装置３０の電源投入時又はリセット後に、複数の音声再生データと複数の変換リストとの関係を表すシナリオフロー情報を指定する指定コマンドを、半導体集積回路装置３０に送信する。

ステップＳ２において、半導体集積回路装置３０のシナリオ設定部３３が、複数の音声再生データと複数の変換リストとの関係を表すシナリオフロー情報を指定する指定コマンドを、ホストＣＰＵ６１から受信する。

ステップＳ３において、シナリオ設定部３３が、シナリオフロー情報に従って、１回の音声認識動作において、音声再生データ格納部３１に格納されている複数の音声再生データの内から１つの音声再生データを選択すると共に、変換リスト格納部３２に格納されている複数の変換リストの内から１つの変換リストを選択する。

ステップＳ４において、標準パターン抽出部３６が、所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、ステップＳ３において選択された変換リストに含まれている各々の単語又は文章の少なくとも一部に対応する標準パターンを抽出する。

ステップＳ５において、音声信号合成部３８が、ステップＳ３において選択された音声再生データに基づいて出力音声信号を合成することにより、音声出力部５０から質問又はメッセージが発せられる。

これに回答してユーザーが音声を発すると、ステップＳ６において、信号処理部３４が、入力された音声信号にフーリエ変換を施すことにより音声信号の周波数成分を抽出し、入力された音声信号の周波数成分の分布状態を表す特徴パターンを生成する。また、信号処理部３４は、音声検出信号を活性化する。

音声検出信号が活性化されると、ステップＳ７において、一致検出部３７が、入力された音声信号の少なくとも一部から生成された特徴パターンと音声認識データベースから抽出された標準パターンとの一致を検出して、変換候補となる複数の単語又は文章の内で一致が検出された単語又は文章を特定する音声認識結果を出力する。

音声検出信号が活性化されてから所定の期間内に特徴パターンと標準パターンとの一致を表す音声認識結果が得られると、ステップＳ８において、ホストＣＰＵ６１が、一連の音声認識動作が完了したか否かを判定する。一連の音声認識動作が完了していれば、処理が終了する。一方、一連の音声認識動作が完了していなければ、処理がステップＳ３に戻る。

本発明の一実施形態によれば、音声認識におけるシナリオに従った変換リストを用いることにより、入力された音声信号の特徴パターンと比較される標準パターンを、変換リストに設定されたテキストデータによって表される各々の単語又は文章の少なくとも一部に対応する標準パターンに絞り込むことができる。

その際に、複数の音声再生データと複数の変換リストとの関係を表すシナリオフロー情報を指定するコマンドをホストＣＰＵ６１から受信することによって、音声認識におけるシナリオの設定や変更を容易に実現することができる。従って、シナリオフローを変更する場合に、制御部６０のホストＣＰＵ６１におけるプログラムコードの変更が最小限で済み、音声認識におけるシナリオの変更が容易になる。また、制御部６０の動作が簡素化されるので、簡単な構成のＣＰＵを制御部６０において用いることができる。

（第１の具体例）
次に、本発明の一実施形態に係る音声認識装置における音声認識動作の第１の具体例について説明する。以下においては、図１に示す音声認識装置が食堂における食券の自動販売機に適用される場合について説明する。

自動販売機には、複数の食品名を含む食品メニューが表示されている。食品メニューには、「うどん」、「そば」、「ラーメン」の文字が表されているものとする。その場合には、ユーザーが発する最初の言葉が、食品メニューに表示されている「うどん」、「そば」、「ラーメン」の内のいずれかになることが予測される。

図３は、音声再生データ格納部に格納されている音声再生データによって表される質問又はメッセージの例を示す図である。この例においては、４つの音声再生番号に対応して、４つの質問又はメッセージの内容を表す音声再生データが、音声再生データ格納部３１に格納されている。音声再生データは、質問又はメッセージに含まれている音素を特定できるローマ字表記又はカナ表記を表すデータを含んでいる。

図４は、変換リスト格納部に格納されている変換リストの例を示す図である。この例においては、３つの変換リスト番号に対応して、３つの変換リストが、変換リスト格納部３２に格納されている。各々の変換リストにおいて、複数の選択肢番号に対応して、複数の音声認識選択肢を表すテキストデータが設定されている。テキストデータは、音声認識選択肢に含まれている音素を特定できるローマ字表記又はカナ表記を表すデータを含んでいる。

図５は、ホストＣＰＵからシナリオ設定部に送信される指定コマンドの例を示す図である。図５に示す指定コマンドは、図３に示す複数の音声再生データと、図４に示す複数の変換リストとの関係を表すシナリオフロー情報を指定するものである。この例においては、指定コマンドが、音声再生データ数と、複数の音声再生番号に対応する変換リスト番号と、変換リスト数と、各々の変換リストについて選択肢数及びそれらの選択肢が認識された後の音声再生番号と、シナリオ開始時の音声再生番号とを含んでいる。なお、変換リスト番号「０」は、シナリオの終了を表している。

図６は、図５に示す指定コマンドによって指定されるシナリオフロー情報に従って実行される音声認識シナリオを示す図である。例えば、ホストＣＰＵ６１は、自動販売機の電源投入時又はリセット後に、指定コマンドを半導体集積回路装置３０に送信する。半導体集積回路装置３０のシナリオ設定部３３は、受信された指定コマンドによって指定されるシナリオフロー情報に従って、音声認識動作を開始する。

まず、シナリオ設定部３３は、図５に示す指定コマンドによって指定されているシナリオ開始時の音声再生番号「１」に従って、音声再生データ格納部３１に格納されている複数の音声再生データの内から音声再生番号「１」に対応する音声再生データＱ１を選択する。

また、シナリオ設定部３３は、図５に示す指定コマンドにおいて音声再生番号１に対応する変換リスト番号「１」に従って、変換リスト格納部３２に格納されている複数の変換リストの内から変換リスト番号「１」に対応する変換リストＬ１を選択する。

標準パターン抽出部３６は、変換リストＬ１に含まれている音声認識選択肢Ａ１「うどん」、音声認識選択肢Ａ２「そば」、音声認識選択肢Ａ３「ラーメン」の先頭の音節「う」、「そ」、「ラ」に含まれている音素「ｕ」、「ｓ・ｏ」、「ｒ・ａ」のそれぞれについて、対応する標準パターンを音声認識データベースから抽出する。

一方、音声信号合成部３８は、音声再生データＱ１に基づいて、音声信号を合成してＤ／Ａ変換器４０に出力する。また、Ｄ／Ａ変換器４０は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部５０に出力する。これにより、音声出力部５０から、「どの食品にしますか？食品名を言って下さい。」という質問又はメッセージが発せられる。

音声出力部５０から発せられた質問又はメッセージに対して、ユーザーが、表示された食品メニューを見て、「そばを下さい。」と言うと、信号処理部３４は、音素「ｓ・ｏ・ｂ・ａ・・・」のそれぞれについて、周波数成分の分布状態を表す特徴パターンを生成する。

一致検出部３７は、信号処理部３４によって生成された先頭の音節の第１番目の音素「ｓ」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第１番目の音素「ｕ」、「ｓ」、「ｒ」の標準パターンとを比較することにより、音素「ｓ」の一致を検出する。

一致が検出された音素が子音を表している場合には、さらに、一致検出部３７が、先頭の音節の第２番目の音素を比較する。一致検出部３７は、信号処理部３４によって生成された先頭の音節の第２番目の音素「ｏ」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第２番目の音素「ｏ」、「ａ」の標準パターンとを比較することにより、音素「ｏ」の一致を検出する。

これにより、先頭の音節「そ」の一致が検出される。一致が検出された音声認識選択肢が１つであれば、ここで音声認識結果が得られる。一方、一致が検出された音声認識選択肢が複数であれば、いずれが該当するかを認識することができないので、標準パターン抽出部３６は、次の音節に含まれている音素のそれぞれについて、対応する標準パターンを音声認識データベースから抽出し、一致検出部３７は、一致を検出すべき音節の範囲を拡大する。

一致検出部３７は、一致が検出された先頭の音節「そ」を有する音声認識選択肢「そば」を特定する音声認識結果をホストＣＰＵ６１に出力する。音声認識選択肢「そば」を特定する情報としては、例えば、図４に示す変換リスト番号「１」及び選択肢番号「２」、音声認識選択肢の日本語表記「そば」又はその一部「そ」、音声認識選択肢に含まれている音素のローマ字表記「ｓｏｂａ」又はその一部「ｓｏ」等が該当する。これにより、ホストＣＰＵ６１は、入力された音声信号の少なくとも一部に対応する音声認識選択肢「そば」を認識することができる。

このようにして第１回目の音声認識動作が終了すると、シナリオ設定部３３は、図５に示す指定コマンドにおける変換リスト１の選択肢２が選択された後の音声再生番号「２」に従って、音声再生データ格納部３１に格納されている複数の音声再生データの内から音声再生番号「２」に対応する音声再生データＱ２を選択する。

また、シナリオ設定部３３は、図５に示す指定コマンドにおいて音声再生番号２に対応する変換リスト番号「２」に従って、変換リスト格納部３２に格納されている複数の変換リストの内から変換リスト番号「２」に対応する変換リストＬ２を選択する。

標準パターン抽出部３６は、変換リストＬ２に含まれている音声認識選択肢Ａ１「温かい」、音声認識選択肢Ａ２「冷たい」の先頭の音節「あ」、「つ」に含まれている音素「ａ」、「ｔ・ｕ」のそれぞれについて、対応する標準パターンを音声認識データベースから抽出する。

一方、音声信号合成部３８は、音声再生データＱ２に基づいて、音声信号を合成してＤ／Ａ変換器４０に出力する。また、Ｄ／Ａ変換器４０は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部５０に出力する。これにより、音声出力部５０から、「温かい、冷たい、どちらにしますか？」という質問が発せられる。

音声出力部５０から発せられた質問に対して、ユーザーが、「温かいのを下さい。」と言うと、信号処理部３４は、音素「ａ・ｔ・ａ・ｔ・ａ・ｋ・ａ・ｉ・・・」のそれぞれについて、周波数成分の分布状態を表す特徴パターンを生成する。

一致検出部３７は、信号処理部３４によって生成された先頭の音節の第１番目の音素「ａ」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第１番目の音素「ａ」、「ｔ」の標準パターンとを比較することにより、音素「ａ」の一致を検出する。これにより、先頭の音節「あ」の一致が検出される。

一致検出部３７は、一致が検出された先頭の音節「あ」を有する音声認識選択肢「温かい」を特定する音声認識結果をホストＣＰＵ６１に出力する。これにより、ホストＣＰＵ６１は、入力された音声信号の少なくとも一部に対応する音声認識選択肢「温かい」を認識することができる。

このようにして第２回目の音声認識動作が終了すると、シナリオ設定部３３は、図５に示す指定コマンドにおける変換リスト２の選択肢１が選択された後の音声再生番号「３」に従って、音声再生データ格納部３１に格納されている複数の音声再生データの内から音声再生番号「３」に対応する音声再生データＱ３を選択する。

また、シナリオ設定部３３は、図５に示す指定コマンドにおいて音声再生番号３に対応する変換リスト番号「３」に従って、変換リスト格納部３２に格納されている複数の変換リストの内から変換リスト番号「３」に対応する変換リストＬ３を選択する。

標準パターン抽出部３６は、変換リストＬ３に含まれている音声認識選択肢Ａ１「大盛り」、音声認識選択肢Ａ２「普通」の先頭の音節「お」、「ふ」に含まれている音素「ｏ」、「ｈ・ｕ」のそれぞれについて、対応する標準パターンを音声認識データベースから抽出する。

一方、音声信号合成部３８は、音声再生データＱ３に基づいて、音声信号を合成してＤ／Ａ変換器４０に出力する。また、Ｄ／Ａ変換器４０は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部５０に出力する。これにより、音声出力部５０から、「大盛り、普通、どちらにしますか？」という質問が発せられる。

音声出力部５０から発せられた質問に対して、ユーザーが、「大盛りを下さい。」と言うと、信号処理部３４は、音素「ｏ・Ｈ・ｍ・ｏ・ｒ・ｉ・・・」のそれぞれについて、周波数成分の分布状態を表す特徴パターンを生成する。

一致検出部３７は、信号処理部３４によって生成された先頭の音節の第１番目の音素「ｏ」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第１番目の音素「ｏ」、「ｈ」の標準パターンとを比較することにより、音素「ｏ」の一致を検出する。これにより、先頭の音節「お」の一致が検出される。

一致検出部３７は、一致が検出された先頭の音節「お」を有する音声認識選択肢「大盛り」を特定する音声認識結果をホストＣＰＵ６１に出力する。これにより、ホストＣＰＵ６１は、入力された音声信号の少なくとも一部に対応する音声認識選択肢「大盛り」を認識することができる。

このようにして第３回目の音声認識動作が終了すると、シナリオ設定部３３は、図５に示す指定コマンドにおける変換リスト３の選択肢１が選択された後の音声再生番号「４」に従って、音声再生データ格納部３１に格納されている複数の音声再生データの内から音声再生番号「４」に対応する音声再生データＱ４を選択する。

音声信号合成部３８は、音声再生データＱ４に基づいて、音声信号を合成してＤ／Ａ変換器４０に出力する。また、Ｄ／Ａ変換器４０は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部５０に出力する。これにより、音声出力部５０から、「ありがとうございます。」というメッセージが発せられる。

シナリオ設定部３３は、図５に示す指定コマンドにおいて音声再生番号４に対応する変換リスト番号「０」に従って、一連の音声認識動作を終了させる。その後、自動販売機が、食券の購入に必要な金額を表示部に表示して指定する。ユーザーが指定された金額を自動販売機に投入すると、自動販売機が食券を提供する。ユーザーが上記以外の選択をした場合にも、図６に示す音声認識シナリオに従って音声認識動作が行われる。

（第２の具体例）
次に、本発明の一実施形態に係る音声認識装置における音声認識動作の第２の具体例について説明する。第２の具体例においては、食券の自動販売機が設置される麺専門店と多メニュー店とにおけるメニューの種類の相違に応じて、指定コマンドにより音声認識シナリオが変更される。

図７は、音声再生データ格納部に格納されている音声再生データによって表されるフレーズの例を示す図である。複数のフレーズを組み合すことによって、１つの文章が構成される。この例においては、１５個のフレーズ番号に対応して、１５個のフレーズの内容を表す音声再生データが、音声再生データ格納部３１に格納されている。

図８は、変換リスト格納部に格納されている変換リストの例を示す図である。この例においては、４つの変換リスト番号に対応して、４つの変換リストが、変換リスト格納部３２に格納されている。各々の変換リストにおいて、複数の選択肢番号に対応して、複数の音声認識選択肢を表すテキストデータが設定されている。

（第１の音声認識シナリオ）
図９は、第１の音声認識シナリオを設定する第１の指定コマンドの例を示す図である。第１の指定コマンドにより、麺専門店において実行される第１の音声認識シナリオが設定される。第１の指定コマンドは、図７に示す複数の音声再生データと、図８に示す複数の変換リストとの関係を表すシナリオフロー情報を指定するものである。

図９に示すように、第１の指定コマンドは、音声再生設定数と、各々の音声再生についてフレーズ数、フレーズ番号、及び、音声再生に対応する変換リスト番号と、変換リスト設定数と、各々の変換リストについて選択肢数及びそれらの選択肢が認識された後の音声再生番号と、シナリオ開始時の音声再生番号とを含んでいる。なお、変換リスト番号「０」は、シナリオの終了を表している。

図１０は、図９に示す第１の指定コマンドによって設定される第１の音声認識シナリオを示す図である。まず、シナリオ設定部３３は、図９に示す指定コマンドによって指定されているシナリオ開始時の音声再生番号が「１」であるので、音声再生１の第１番目〜第５番目のフレーズ番号「１」、「３」、「４」、「５」、「１４」に従って、音声再生データ格納部３１に格納されている複数の音声再生データの内から対応するフレーズＰ１、Ｐ３、Ｐ４、Ｐ５、Ｐ１４を表す音声再生データを選択する。

また、シナリオ設定部３３は、図９に示す指定コマンドにおいて音声再生１に対応する変換リスト番号「１」に従って、変換リスト格納部３２に格納されている複数の変換リストの内から変換リスト番号「１」に対応する変換リストＬ１を選択する。

標準パターン抽出部３６は、変換リストＬ１に含まれている音声認識選択肢Ａ１「うどん」、音声認識選択肢Ａ２「そば」、音声認識選択肢Ａ３「ラーメン」の先頭の音節に含まれている音素のそれぞれについて、対応する標準パターンを音声認識データベースから抽出する。

一方、音声信号合成部３８は、フレーズＰ１、Ｐ３、Ｐ４、Ｐ５、Ｐ１４を表す音声再生データに基づいて、音声信号を合成してＤ／Ａ変換器４０に出力する。また、Ｄ／Ａ変換器４０は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部５０に出力する。これにより、音声出力部５０から、「メニューの案内です。うどん、そば、ラーメンから選択してください。」というメッセージ（音声再生１）が発せられる。

音声出力部５０から発せられたメッセージ（音声再生１）に対して、ユーザーが、「うどんを下さい。」と言うと、信号処理部３４は、音素「ｕ・ｄ・ｏ・Ｎ・・・」のそれぞれについて、周波数成分の分布状態を表す特徴パターンを生成する。

一致検出部３７は、信号処理部３４によって生成された先頭の音節の第１番目の音素「ｕ」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第１番目の音素の標準パターンとを比較することにより、音素「ｕ」の一致を検出する。これにより、先頭の音節「う」の一致が検出される。一致検出部３７は、一致が検出された先頭の音節「う」を有する音声認識選択肢「うどん」を特定する音声認識結果をホストＣＰＵ６１に出力する。

このようにして第１回目の音声認識動作が終了すると、シナリオ設定部３３は、図９に示す指定コマンドにおける変換リスト１の選択肢１が選択された後の音声再生番号が「２」であるので、音声再生２の第１番目のフレーズ番号「１５」に従って、音声再生データ格納部３１に格納されている複数の音声再生データの内から対応するフレーズＰ１５を表す音声再生データを選択する。

音声信号合成部３８は、フレーズＰ１５を表す音声再生データに基づいて、音声信号を合成してＤ／Ａ変換器４０に出力する。また、Ｄ／Ａ変換器４０は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部５０に出力する。これにより、音声出力部５０から、「ありがとうございます。」というメッセージ（音声再生２）が発せられる。シナリオ設定部３３は、図９に示す指定コマンドにおいて音声再生２に対応する変換リスト番号「０」に従って、一連の音声認識動作を終了させる。

（第２の音声認識シナリオ）
図１１は、第２の音声認識シナリオを設定する第２の指定コマンドの例を示す図である。第２の指定コマンドにより、多メニュー店において実行される第２の音声認識シナリオが設定される。第２の指定コマンドも、図７に示す複数の音声再生データと、図８に示す複数の変換リストとの関係を表すシナリオフロー情報を指定するものである。

図１１に示すように、第２の指定コマンドは、音声再生設定数と、各々の音声再生についてフレーズ数、フレーズ番号、及び、音声再生に対応する変換リスト番号と、変換リスト設定数と、各々の変換リストについて選択肢数及びそれらの選択肢が認識された後の音声再生番号と、シナリオ開始時の音声再生番号とを含んでいる。なお、変換リスト番号「０」は、シナリオの終了を表している。

図１２は、図１１に示す第２の指定コマンドによって設定される第２の音声認識シナリオを示す図である。まず、シナリオ設定部３３は、図１１に示す指定コマンドによって指定されているシナリオ開始時の音声再生番号が「１」であるので、音声再生１の第１番目〜第５番目のフレーズ番号「１」、「２」、「６」、「１０」、「１４」に従って、音声再生データ格納部３１に格納されている複数の音声再生データの内から対応するフレーズＰ１、Ｐ２、Ｐ６、Ｐ１０、Ｐ１４を表す音声再生データを選択する。

また、シナリオ設定部３３は、図１１に示す指定コマンドにおいて音声再生１に対応する変換リスト番号「４」に従って、変換リスト格納部３２に格納されている複数の変換リストの内から変換リスト番号「４」に対応する変換リストＬ４を選択する。

標準パターン抽出部３６は、変換リストＬ４に含まれている音声認識選択肢Ａ１「麺類」、音声認識選択肢Ａ２「定食」、音声認識選択肢Ａ３「デザート」の先頭の音節に含まれている音素のそれぞれについて、対応する標準パターンを音声認識データベースから抽出する。

一方、音声信号合成部３８は、フレーズＰ１、Ｐ２、Ｐ６、Ｐ１０、Ｐ１４を表す音声再生データに基づいて、音声信号を合成してＤ／Ａ変換器４０に出力する。また、Ｄ／Ａ変換器４０は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部５０に出力する。これにより、音声出力部５０から、「メニューの案内です。麺類、定食、デザートから選択してください。」というメッセージ（音声再生１）が発せられる。

音声出力部５０から発せられたメッセージ（音声再生１）に対して、ユーザーが、「デザートにします。」と言うと、信号処理部３４は、音素「ｄ・ｅ・ｚ・ａ・Ｈ・ｔ・ｏ・・・」のそれぞれについて、周波数成分の分布状態を表す特徴パターンを生成する。

一致検出部３７は、信号処理部３４によって生成された先頭の音節の第１番目の音素「ｄ」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第１番目の音素の標準パターンとを比較することにより、音素「ｄ」の一致を検出する。一致が検出された音素が子音を表しているので、さらに、一致検出部３７が、先頭の音節の第２番目の音素を比較することにより、音素「ｅ」の一致を検出する。これにより、先頭の音節「デ」の一致が検出される。一致検出部３７は、一致が検出された先頭の音節「デ」を有する音声認識選択肢「デザート」を特定する音声認識結果をホストＣＰＵ６１に出力する。

このようにして第１回目の音声認識動作が終了すると、シナリオ設定部３３は、図１１に示す指定コマンドにおける変換リスト４の選択肢３が選択された後の音声再生番号が「４」であるので、音声再生４の第１番目〜第４番目のフレーズ番号「１１」、「１２」、「１３」、「１４」に従って、音声再生データ格納部３１に格納されている複数の音声再生データの内から対応するフレーズＰ１１、Ｐ１２、Ｐ１３、Ｐ１４を表す音声再生データを選択する。

また、シナリオ設定部３３は、図１１に示す指定コマンドにおいて音声再生４に対応する変換リスト番号「３」に従って、変換リスト格納部３２に格納されている複数の変換リストの内から変換リスト番号「３」に対応する変換リストＬ３を選択する。

標準パターン抽出部３６は、変換リストＬ３に含まれている音声認識選択肢Ａ１「ソフトクリーム」、音声認識選択肢Ａ２「プリン」、音声認識選択肢Ａ３「ショートケーキ」の先頭の音節に含まれている音素のそれぞれについて、対応する標準パターンを音声認識データベースから抽出する。

一方、音声信号合成部３８は、フレーズＰ１１、Ｐ１２、Ｐ１３、Ｐ１４を表す音声再生データに基づいて、音声信号を合成してＤ／Ａ変換器４０に出力する。また、Ｄ／Ａ変換器４０は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部５０に出力する。これにより、音声出力部５０から、「ソフトクリーム、プリン、ショートケーキから選択してください。」というメッセージ（音声再生４）が発せられる。

音声出力部５０から発せられたメッセージ（音声再生４）に対して、ユーザーが、「ソフトクリームにします。」と言うと、信号処理部３４は、音素「ｓ・ｏ・ｈ・ｕ・ｔ・ｏ・・・」のそれぞれについて、周波数成分の分布状態を表す特徴パターンを生成する。

一致検出部３７は、信号処理部３４によって生成された先頭の音節の第１番目の音素「ｓ」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第１番目の音素の標準パターンとを比較することにより、音素「ｓ」の一致を検出する。一致が検出された音素が子音を表しているので、さらに、一致検出部３７が、先頭の音節の第２番目の音素を比較することにより、音素「ｏ」の一致を検出する。これにより、先頭の音節「ソ」の一致が検出される。一致検出部３７は、一致が検出された先頭の音節「ソ」を有する音声認識選択肢「ソフトクリーム」を特定する音声認識結果をホストＣＰＵ６１に出力する。

このようにして第２回目の音声認識動作が終了すると、シナリオ設定部３３は、図１１に示す指定コマンドにおける変換リスト３の選択肢１が選択された後の音声再生番号が「５」であるので、音声再生５の第１番目のフレーズ番号「１５」に従って、音声再生データ格納部３１に格納されている複数の音声再生データの内から対応するフレーズＰ１５を表す音声再生データを選択する。

音声信号合成部３８は、フレーズＰ１５を表す音声再生データに基づいて、音声信号を合成してＤ／Ａ変換器４０に出力する。また、Ｄ／Ａ変換器４０は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部５０に出力する。これにより、音声出力部５０から、「ありがとうございます。」というメッセージ（音声再生５）が発せられる。シナリオ設定部３３は、図１１に示す指定コマンドにおいて音声再生５に対応する変換リスト番号「０」に従って、一連の音声認識動作を終了させる。

以上の実施形態においては、本発明を自動販売機に適用した具体例について説明したが、本発明は、この実施形態に限定されるものではなく、一般的な電子機器に適用可能であると共に、当該技術分野において通常の知識を有する者によって、本発明の技術的思想内で多くの変形が可能である。

１０…音声入力部、２０…Ａ／Ｄ変換器、３０…半導体集積回路装置、３１…音声再生データ格納部、３２…変換リスト格納部、３３…シナリオ設定部、３４…信号処理部、３５…音声認識データベース格納部、３６…標準パターン抽出部、３７…一致検出部、３８…音声信号合成部、３９…音声合成データベース格納部、４０…Ｄ／Ａ変換器、５０…音声出力部、６０…制御部、６１…ホストＣＰＵ、６２…格納部、１００…音声認識装置

Claims

音声再生データに基づいてユーザーに質問又はメッセージを発すると共に、前記ユーザーの音声に対する音声認識の処理を行う音声認識装置において用いられる半導体集積回路装置であって、
複数の前記音声再生データと複数の変換リストとの関係を表すシナリオフロー情報を指定するコマンドを受信し、前記シナリオフロー情報に従って、音声再生データ格納部に格納されている複数の前記音声再生データの内から所定の音声再生データを選択すると共に、変換リスト格納部に格納されている複数の前記変換リストの内から所定の変換リストを選択するシナリオ設定部と、
所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、前記所定の変換リストに含まれている各々の単語又は文章の少なくとも一部に対応する標準パターンを抽出する標準パターン抽出部と、
前記所定の音声再生データに基づいて出力音声信号を合成する音声信号合成部と、
入力された音声信号にフーリエ変換を施すことにより前記音声信号の周波数成分を抽出し、前記音声信号の周波数成分の分布状態を表す特徴パターンを生成する信号処理部と、
前記音声信号の少なくとも一部から生成された前記特徴パターンと前記音声認識データベースから抽出された前記標準パターンとの比較を行い、音声認識結果を出力する一致検出部と、
を具備する半導体集積回路装置。
前記シナリオ設定部が、１回の音声認識動作において、前記音声再生データ格納部に格納されている複数の前記音声再生データの内から、前記シナリオフロー情報に従って前記所定の音声再生データを選択すると共に、前記変換リスト格納部に格納されている複数の前記変換リストの内から、前記シナリオフロー情報に設定されている前記所定の変換リストを選択する、請求項１記載の半導体集積回路装置。
前記音声信号合成部が、前記シナリオ設定部によって選択された第１の音声再生データに基づいて出力音声信号を合成した後に、前記シナリオ設定部が、前記一致検出部から出力される音声認識結果に対応して前記シナリオフロー情報に設定されている第２の音声再生データを選択する、請求項１又は２記載の半導体集積回路装置。
前記シナリオ設定部が、複数の前記変換リストの内から、前記シナリオフロー情報に従って、前記第２の音声再生データに対応する前記所定の変換リストを選択する、請求項３記載の半導体集積回路装置。
前記シナリオ設定部が、少なくとも１つの前記音声再生データ又は少なくとも１つの前記変換リストを設定又は変更するコマンドを受信して、前記音声再生データ格納部において前記少なくとも１つの前記音声再生データを設定又は変更し、又は、前記変換リスト格納部において前記少なくとも１つの前記変換リストを設定又は変更する、請求項１〜４のいずれか１項記載の半導体集積回路装置。
請求項１〜５のいずれか１項記載の半導体集積回路装置と、
前記複数の音声再生データと前記複数の変換リストとの対応関係を表す前記シナリオフロー情報を指定する前記コマンドを前記半導体集積回路装置に送信する制御部と、
を具備する音声認識装置。
音声再生データに基づいてユーザーに質問又はメッセージを発すると共に、前記ユーザーの音声に対する音声認識の処理を行う音声認識装置において用いられる音声認識方法であって、
複数の前記音声再生データと複数の変換リストとの関係を表すシナリオフロー情報を指定するコマンドを受信するステップ（ａ）と、
前記シナリオフロー情報に従って、音声再生データ格納部に格納されている複数の前記音声再生データの内から所定の音声再生データを選択すると共に、変換リスト格納部に格納されている複数の前記変換リストの内から所定の変換リストを選択するステップ（ｂ）と、
所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、前記所定の変換リストに含まれている各々の単語又は文章の少なくとも一部に対応する標準パターンを抽出するステップ（ｃ）と、
前記所定の音声再生データに基づいて出力音声信号を合成するステップ（ｄ）と、
入力された音声信号にフーリエ変換を施すことにより前記音声信号の周波数成分を抽出し、前記音声信号の周波数成分の分布状態を表す特徴パターンを生成するステップ（ｅ）と、
前記音声信号の少なくとも一部から生成された前記特徴パターンと前記音声認識データベースから抽出された前記標準パターンとの比較を行い、音声認識結果を出力するステップ（ｆ）と、
を具備する音声認識方法。