JP2015014665A - 音声認識装置及び方法、並びに、半導体集積回路装置 - Google Patents

音声認識装置及び方法、並びに、半導体集積回路装置 Download PDF

Info

Publication number
JP2015014665A
JP2015014665A JP2013140426A JP2013140426A JP2015014665A JP 2015014665 A JP2015014665 A JP 2015014665A JP 2013140426 A JP2013140426 A JP 2013140426A JP 2013140426 A JP2013140426 A JP 2013140426A JP 2015014665 A JP2015014665 A JP 2015014665A
Authority
JP
Japan
Prior art keywords
reproduction data
voice
scenario
audio reproduction
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2013140426A
Other languages
English (en)
Inventor
勉 野中
Tsutomu Nonaka
勉 野中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2013140426A priority Critical patent/JP2015014665A/ja
Priority to US14/324,771 priority patent/US9190060B2/en
Publication of JP2015014665A publication Critical patent/JP2015014665A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)

Abstract

【課題】音声認識におけるシナリオの設定や変更を容易に実現できるようにする。【解決手段】音声認識用の半導体集積回路装置は、複数の音声再生データと複数の変換リストとの関係を表すシナリオフロー情報を指定するコマンドを受信し、シナリオフロー情報に従って、音声再生データ格納部において所定の音声再生データを選択すると共に、変換リスト格納部において所定の変換リストを選択するシナリオ設定部と、所定の変換リストに含まれている各々の単語又は文章の少なくとも一部に対応する標準パターンを音声認識データベースから抽出する標準パターン抽出部と、所定の音声再生データに基づいて出力音声信号を合成する音声信号合成部と、入力された音声信号の周波数成分の分布状態を表す特徴パターンを生成する信号処理部と、特徴パターンと標準パターンとの比較を行い、音声認識結果を出力する一致検出部とを含む。【選択図】図1

Description

本発明は、例えば、音声を認識し、その認識結果に対応する応答や処理を行う音声認識装置及び音声認識方法に関する。さらに、本発明は、そのような音声認識装置及び音声認識方法において用いられる半導体集積回路装置等に関する。
音声認識は、入力される音声信号を解析し、その結果として得られる特徴パターンを、予め収録された音声信号に基づいて音声認識データベースに用意されている標準パターン(「テンプレート」ともいう)と照合することによって、認識結果を得る技術である。一般に、音声認識における選択肢情報は音声認識辞書の中に存在するが、音声認識辞書の更新には時間を要するので、音声認識処理の実行中において選択肢情報の更新が困難であった。
関連する従来技術として、特許文献1には、音声認識サービスを中断させることなく、各音声認識処理部の認識辞書を効率よく更新できるようにする音声認識装置が開示されている。この音声認識装置は、ユーザー端末から受信した音声データを認識辞書に基づいて認識する音声認識装置であって、認識辞書が記憶された認識辞書記憶手段と、認識辞書記憶手段から認識辞書を読み出して自身の共通辞書領域に更新登録し、この認識辞書に基づいて音声データを認識する複数の音声認識処理手段と、音声認識要求に応答して、音声認識処理手段のいずれかに音声データを認識させる音声認識要求受付手段と、辞書更新要求に応答して、音声認識処理手段を複数回に分けて少なくとも1つずつ選択し、その認識辞書を順次に更新させる辞書更新要求受付手段とを含むことが記載されている。
特許文献1の音声認識装置によれば、認識辞書の更新対象となる音声認識処理手段が、複数回に分けて少なくとも1つずつ選択され、その認識辞書が更新されるので、音声認識装置全体としては、音声認識サービスを中断させることなく全ての音声認識処理手段の認識辞書を更新できるようになる。
特開2008−15209号公報(段落0009−0012、図1)
しかしながら、このように、音声認識サービスを中断させることなく音声認識辞書の更新が可能であったとしても、入力される音声信号を解析して得られる特徴パターンを標準パターンと照合する際に、照合される範囲に制限が設けられていない場合には、比較すべき特徴パターンと標準パターンとの組み合わせが膨大な数となって処理時間が増大すると共に、想定する語彙が多くなることで判定が難しくなり認識率が低下してしまうことも考えられる。
この対策としては、例えば、予め設定されたシナリオに沿って音声認識を行うことにより、比較すべき特徴パターンと標準パターンとの組み合わせの数を制限して、認識率の向上を図ることが考えられるが、シナリオを設定するためには、音声認識ソフトウエアを搭載したCPU(中央演算装置)において、そのシナリオのフロー等をプログラムコードとして組み込むか、又は、外付けの音声認識装置を制御するプログラムコードを作成する必要がある。しかしながら、シナリオを変更する場合には、CPUにおいてプログラムコードを変更しなければならないので、プログラムコードの変更や評価等に多くの時間や工数を要してしまう。そこで、本発明の目的の1つは、音声認識におけるシナリオの設定や変更を容易に実現できるようにすることである。
上述した課題の少なくとも1つを解決するため、本発明の1つの観点に係る半導体集積回路装置は、音声再生データに基づいてユーザーに質問又はメッセージを発すると共に、ユーザーの音声に対する音声認識の処理を行う音声認識装置において用いられる半導体集積回路装置であって、複数の音声再生データと複数の変換リストとの関係を表すシナリオフロー情報を指定するコマンドを受信し、シナリオフロー情報に従って、音声再生データ格納部に格納されている複数の音声再生データの内から所定の音声再生データを選択すると共に、変換リスト格納部に格納されている複数の変換リストの内から所定の変換リストを選択するシナリオ設定部と、所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、所定の変換リストに含まれている各々の単語又は文章の少なくとも一部に対応する標準パターンを抽出する標準パターン抽出部と、所定の音声再生データに基づいて出力音声信号を合成する音声信号合成部と、入力された音声信号にフーリエ変換を施すことにより音声信号の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成する信号処理部と、音声信号の少なくとも一部から生成された特徴パターンと音声認識データベースから抽出された標準パターンとの比較を行い、音声認識結果を出力する一致検出部とを具備する。
本発明の1つの観点に係る半導体集積回路装置によれば、複数の音声再生データと複数の変換リストとの関係を表すシナリオフロー情報を指定するコマンドを半導体集積回路装置に送信することによって、音声認識におけるシナリオの設定や変更を容易に実現することができる。
ここで、シナリオ設定部が、1回の音声認識動作において、音声再生データ格納部に格納されている複数の音声再生データの内から、シナリオフロー情報に従って所定の音声再生データを選択すると共に、変換リスト格納部に格納されている複数の変換リストの内から、シナリオフロー情報に設定されている所定の変換リストを選択するようにしても良い。その場合には、音声再生データに基づいて発せられる質問又はメッセージに対するユーザーの回答が幾つかの単語又は文章の内の1つに予測される状況を作り出し、それらの単語又は文章を含む変換リストを適用することができる。
また、音声信号合成部が、シナリオ設定部によって選択された第1の音声再生データに基づいて出力音声信号を合成した後に、シナリオ設定部が、一致検出部から出力される音声認識結果に対応してシナリオフロー情報に設定されている第2の音声再生データを選択するようにしても良い。その場合には、第1の音声再生データに基づいて発せられる質問又はメッセージに対するユーザーの回答に応じて、次の質問又はメッセージを表す第2の音声再生データを適切に選択することができる。
さらに、シナリオ設定部は、複数の変換リストの内から、シナリオフロー情報に従って、第2の音声再生データに対応する所定の変換リストを選択するようにしても良い。その場合には、第2の音声再生データに基づいて発せられる質問又はメッセージに対するユーザーの回答に対応して、適切な変換リストを選択することができる。
また、シナリオ設定部は、少なくとも1つの音声再生データ又は少なくとも1つの変換リストを設定又は変更するコマンドを受信して、音声再生データ格納部において少なくとも1つの音声再生データを設定又は変更し、又は、変換リスト格納部において少なくとも1つの変換リストを設定又は変更するようにしても良い。その場合には、音声認識におけるシナリオの設定や変更に伴い、音声再生データ又は変換リストの設定又は変更を容易に実現できるようになる。
本発明の1つの観点に係る音声認識装置は、本発明のいずれかの観点に係る半導体集積回路装置と、複数の音声再生データと複数の変換リストとの対応関係を表すシナリオフロー情報を指定するコマンドを半導体集積回路装置に送信する制御部とを具備する。本発明の1つの観点に係る音声認識装置によれば、シナリオフローを変更する場合に、制御部のCPUにおけるプログラムコードの変更が最小限で済み、音声認識におけるシナリオの変更が容易になる。また、制御部の動作が簡素化されるので、簡単な構成のCPUを制御部において用いることができる。
本発明の1つの観点に係る音声認識方法は、音声再生データに基づいてユーザーに質問又はメッセージを発すると共に、ユーザーの音声に対する音声認識の処理を行う音声認識装置において用いられる音声認識方法であって、複数の音声再生データと複数の変換リストとの関係を表すシナリオフロー情報を指定するコマンドを受信するステップ(a)と、シナリオフロー情報に従って、音声再生データ格納部に格納されている複数の音声再生データの内から所定の音声再生データを選択すると共に、変換リスト格納部に格納されている複数の変換リストの内から所定の変換リストを選択するステップ(b)と、所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、所定の変換リストに含まれている各々の単語又は文章の少なくとも一部に対応する標準パターンを抽出するステップ(c)と、所定の音声再生データに基づいて出力音声信号を合成するステップ(d)と、入力された音声信号にフーリエ変換を施すことにより音声信号の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成するステップ(e)と、音声信号の少なくとも一部から生成された特徴パターンと音声認識データベースから抽出された標準パターンとの比較を行い、音声認識結果を出力するステップ(f)とを具備する。
本発明の1つの観点に係る音声認識方法によれば、複数の音声再生データと複数の変換リストとの関係を表すシナリオフロー情報を指定するコマンドを受信することによって、音声認識におけるシナリオの設定や変更を容易に実現することができる。
本発明の一実施形態に係る音声認識装置の構成例を示すブロック図。 図1に示す音声認識装置において用いられる音声認識方法を示すフロー図。 音声再生データによって表される質問又はメッセージの例を示す図。 変換リスト格納部に格納されている変換リストの例を示す図。 ホストCPUからシナリオ設定部に送信される指定コマンドの例を示す図。 図5に示す指定コマンドによって設定される音声認識シナリオを示す図。 音声再生データによって表されるフレーズの例を示す図。 変換リスト格納部に格納されている変換リストの例を示す図。 第1の音声認識シナリオを設定する第1の指定コマンドの例を示す図。 図9に示す指定コマンドによって設定される音声認識シナリオを示す図。 第2の音声認識シナリオを設定する第2の指定コマンドの例を示す図。 図11に示す指定コマンドによって設定される音声認識シナリオを示す図。
以下、本発明の実施形態について、図面を参照しながら詳しく説明する。
図1は、本発明の一実施形態に係る音声認識装置の構成例を示すブロック図である。音声認識装置100は、例えば、自動販売機、家電製品、住宅設備、車載装置(ナビゲーション装置等)、又は、携帯端末等に搭載される。音声認識装置100は、音声再生データに基づいてユーザーに質問又はメッセージを発すると共に、音声認識において変換候補となる複数の単語又は文章を含む変換リストを用いてユーザーの音声を認識し、その認識結果に対応する応答や処理を行う。
図1に示すように、音声認識装置100は、音声入力部10と、A/D変換器20と、音声認識用の半導体集積回路装置30と、D/A変換器40と、音声出力部50と、制御部60とを含んでいる。なお、音声入力部10、A/D変換器20、D/A変換器40、及び、音声出力部50の少なくとも一部を、半導体集積回路装置30に内蔵しても良い。
制御部60は、ホストCPU(中央演算装置)61と、格納部62とを含んでいる。ホストCPU61は、格納部62の記録媒体に記録されているソフトウェア(音声認識制御プログラム)に基づいて動作する。記録媒体としては、ハードディスク、フレキシブルディスク、MO、MT、CD−ROM、又は、DVD−ROM等を用いることができる。
ホストCPU61は、音声認識用の半導体集積回路装置30に制御信号を供給することにより、半導体集積回路装置30における音声認識動作を制御する。また、ホストCPU61は、複数の音声再生データと複数の変換リストとの関係を表すシナリオフロー情報を指定する指定コマンドを、半導体集積回路装置30に送信する。さらに、ホストCPU61は、少なくとも1つの音声再生データ又は少なくとも1つの変換リストを設定又は変更(追加若しくは削除)する設定コマンドを、半導体集積回路装置30に送信する。
音声入力部10は、音声を電気信号(音声信号)に変換するマイクロフォンと、マイクロフォンから出力される音声信号を増幅する増幅器と、増幅された音声信号の帯域を制限するローパスフィルタとを含んでいる。A/D変換器20は、音声入力部10から出力されるアナログの音声信号をサンプリングすることにより、ディジタルの音声信号(音声データ)に変換する。例えば、音声データにおける音声周波数帯域は12kHzであり、ビット数は16ビットである。
半導体集積回路装置30は、音声再生データ格納部31と、変換リスト格納部32と、シナリオ設定部33と、信号処理部34と、音声認識データベース(DB)格納部35と、標準パターン抽出部36と、一致検出部37と、音声信号合成部38と、音声合成データベース(DB)格納部39とを含んでいる。なお、音声再生データ格納部31、変換リスト格納部32、音声認識データベース格納部35、及び、音声合成データベース格納部39の少なくとも一部を、半導体集積回路装置30に外付けされるメモリー等に内蔵しても良い。
音声再生データ格納部31は、ユーザーに質問又はメッセージを発するために用いられる複数の音声再生データを格納する。また、変換リスト格納部32は、音声認識において変換候補となる複数の単語又は文章のテキストデータを各々が含む複数の変換リストを格納する。シナリオ設定部33は、複数の音声再生データと複数の変換リストとの関係を表すシナリオフロー情報を指定する指定コマンドを、ホストCPU61から受信する。
シナリオ設定部33は、シナリオフロー情報に従って、1回の音声認識動作において、音声再生データ格納部31に格納されている複数の音声再生データの内から1つの音声再生データを選択すると共に、変換リスト格納部32に格納されている複数の変換リストの内から1つの変換リストを選択する。これにより、音声認識におけるシナリオの設定や変更を容易に実現することができる。
また、シナリオ設定部33は、少なくとも1つの音声再生データ又は少なくとも1つの変換リストを設定又は変更する設定コマンドをホストCPU61から受信する。シナリオ設定部33は、設定コマンドに従って、音声再生データ格納部31において少なくとも1つの音声再生データを設定又は変更したり、又は、変換リスト格納部32において少なくとも1つの変換リストを設定又は変更したりすることができる。これにより、音声認識におけるシナリオの設定や変更に伴って、音声再生データ又は変換リストの設定又は変更を容易に実現することができる。
信号処理部34は、入力された音声信号にフーリエ変換を施すことにより音声信号の周波数成分を抽出し、音声信号の周波数成分の分布状態を表す特徴パターンを生成する。生成された特徴パターンは、一致検出部37に出力される。また、信号処理部34は、入力された音声信号のレベルが所定の値を超えたときに、音声検出信号を活性化して一致検出部37及びホストCPU61に出力する。これにより、ユーザーからの要求又は回答の有無を判定することができる。
ここで、音声信号から特徴パターンを求める手法の一例について説明する。信号処理部34は、入力された音声信号にフィルタ処理を施して高域成分を強調する。次に、信号処理部34は、音声信号によって表される音声波形にハミング窓をかけることにより、時系列の音声信号を所定の時間毎に区切って複数のフレームを作成する。さらに、信号処理部34は、フレーム毎に音声信号をフーリエ変換することにより、複数の周波数成分を抽出する。各々の周波数成分は複素数であるので、信号処理部34は、各々の周波数成分の絶対値を求める。
信号処理部34は、それらの周波数成分に、メル尺度に基づいて定められた周波数領域の窓をかけて積分することにより、窓の数に対応する数の数値を求める。さらに、信号処理部34は、それらの数値の対数をとって、対数値を離散コサイン変換する。これにより、周波数領域の窓が20個であれば、20個の数値が得られる。
このようにして得られた数値の内で低次のもの(例えば、12個)が、MFCC(メル周波数ケプストラム係数)と呼ばれる。信号処理部34は、フレーム毎にMFCCを算出し、HMM(隠れマルコフモデル)に従ってMFCCを連結して、時系列で入力された音声信号に含まれている各々の音素に対応するMFCCとして特徴パターンを求める。
ここで、「音素」とは、ある言語において同じとみなされる音の要素を意味する。以下においては、言語として日本語が用いられる場合について説明する。日本語の音素としては、「a」、「i」、「u」、「e」、「o」の母音と、「k」、「s」、「t」、「n」等の子音と、「j」、「w」の半母音と、「N」、「Q」、「H」の特殊モーラとが該当する。
音声認識データベース格納部35は、所定の言語において用いられる各種の音素について周波数成分の分布状態を表す標準パターンを含む音声認識データベースを格納する。音声認識データベースにおいては、各種の音素を表すテキストデータと、選択肢情報としての標準パターンとが、対応付けられている。
標準パターンは、多数(例えば、200人程度)の話者が発した音声を用いて予め作成される。標準パターンの作成においては、各々の音素を表す音声信号からMFCCが求められる。ただし、多数の話者が発した音声を用いて作成されたMFCCにおいては、それぞれの数値がばらつきを有している。
従って、各々の音素についての標準パターンは、多次元空間(例えば、12次元空間)において、ばらつきを含む広がりを有している。信号処理部34に入力された音声信号から生成された特徴パターンが標準パターンの広がりの範囲内に入っていれば、両者の音素が一致していると判定される。
また、1つの音声認識データベースではなく、複数の音声認識データベースを用いるようにしても良い。例えば、音声認識データベース格納部35は、年齢及び性別の異なる複数群の話者の音声を収録して得られた音声信号に基づいて生成された複数の音声認識データベースを格納しても良い。その場合に、一致検出部37は、複数の音声認識データベースの内から、音素の一致を良好に検出できる音声認識データベースを選択して使用することができる。
あるいは、音声認識装置を使用するユーザーの年齢及び性別を特定できる場合には、音声認識データベース格納部35は、年齢及び性別の異なる複数群の話者の音声を収録して得られた音声データに基づいて生成された複数の音声認識データベースを、年齢及び性別を特定する情報に対応付けて格納しても良い。その場合に、一致検出部37は、音声認識データベース格納部35に格納されている複数の音声認識データベースの内から、音声認識装置を使用するユーザーの年齢及び性別を特定する情報に従って1つの音声認識データベースを選択して使用することができる。
標準パターン抽出部36は、音声認識データベース格納部35に格納されている音声認識データベースから、シナリオ設定部33によって選択された変換リストに含まれている各々の単語又は文章の少なくとも一部に対応する標準パターンを抽出する。
一致検出部37は、音声検出信号が活性化されているときに動作し、入力された音声信号の少なくとも一部から生成された特徴パターンを、音声認識データベースから抽出された標準パターンと比較することによって、両者の一致を検出する。
例えば、一致検出部37は、入力された音声信号の先頭の音節から生成された特徴パターンを、変換リストに含まれているテキストデータによって表される各々の単語又は文章の先頭の音節に対応する標準パターンと比較する。変換リストにおいて、一致が検出された音節を先頭に有する変換候補が1つだけ存在する場合には、一致検出部37は、その変換候補が変換後の単語又は文章であると判定しても良い。一方、変換リストにおいて、一致が検出された音節を先頭に有する複数の変換候補が存在する場合には、一致検出部37は、変換候補が1つに絞られるまで、一致を検出すべき音節の範囲を拡大しても良い。
ここで、「音節」とは、1個の母音を主音とし、その母音単独で、あるいは、その母音の前後に1つ又は複数の子音を伴って構成される音のまとまりを意味する。また、半母音や特殊モーラも、音節を構成することができる。即ち、1つの音節は、1つ又は複数の音素によって構成される。日本語の音節としては、「あ」、「い」、「う」、「え」、「お」、「か」、「き」、「く」、「け」、「こ」等が該当する。
例えば、音節「あ」に対応する標準パターンとは、音節「あ」を構成する音素「a」を表す標準パターンのことである。また、音節「か」に対応する標準パターンとは、音節「か」を構成する第1番目の音素「k」を表す標準パターンと、音節「か」を構成する第2番目の音素「a」を表す標準パターンとの組み合わせのことである。
入力された音声信号の1つの音節が1つの音素で構成されている場合には、その音素の一致が検出されれば、音節の一致が検出されたことになる。一方、入力された音声信号の1つの音節が複数の音素で構成されている場合には、それらの音素の一致が検出されれば、音節の一致が検出されたことになる。
特徴パターンと標準パターンとの間で上述したような一致が検出されると、一致検出部37は、変換候補となる複数の単語又は文章の内で一致が検出された音節を有する単語又は文章を特定する情報、例えば、その単語又は文章を表すテキストデータを、音声認識結果として出力する。これにより、ホストCPU61は、半導体集積回路装置30に入力された音声信号の少なくとも一部に対応する単語又は文章を認識することができる。
音声信号合成部38は、シナリオ設定部33によって選択された音声再生データに基づいて、出力すべき音声を表す出力音声信号を合成する。音声再生データは、テキストデータであっても良い。その場合には、出力音声信号を合成するために、音声合成データベース格納部39に格納されている音声合成データベースが用いられる。音声合成データベースには、各種の音素について音声波形を表す音声データが含まれており、音声信号合成部38は、テキストデータによって表される単語又は文章に含まれている複数の音素について音声データを繋ぎ合わせることにより、出力音声信号を合成する。
D/A変換器40は、音声信号合成部38から出力されるディジタルの音声信号を、アナログの音声信号に変換する。音声出力部50は、D/A変換器40から出力されるアナログの音声信号を電力増幅する電力増幅器と、電力増幅された音声信号に応じて音声を発するスピーカーとを含んでいる。スピーカーは、シナリオ設定部33によって選択された音声再生データによって表される質問又はメッセージを、音声として出力する。
シナリオ設定部33は、1回の音声認識動作において、音声再生データ格納部31に格納されている複数の音声再生データの内から、シナリオフロー情報に従って1つの音声再生データを選択すると共に、変換リスト格納部32に格納されている複数の変換リストの内から、選択された音声再生データに対応してシナリオフロー情報に設定されている1つの変換リストを選択する。
シナリオフロー情報には、各々の音声再生データに基づいて発せられる質問又はメッセージに対する回答として変換候補となる複数の単語又は文章を含む変換リストが設定されている。これにより、音声再生データに基づいて発せられる質問又はメッセージに対するユーザーの回答が幾つかの単語又は文章の内の1つに予測される状況を作り出し、それらの単語又は文章を含む変換リストを適用することができる。
また、音声信号合成部38が、シナリオ設定部33によって選択された第1の音声再生データに基づいて出力音声信号を合成し、第1の音声再生データに基づいて質問又はメッセージが発せられた後に、シナリオ設定部33は、一致検出部37から出力される音声認識結果に対応して第2の音声再生データを選択する。これにより、第1の音声再生データに基づいて発せられる質問又はメッセージに対するユーザーの回答に応じて、次の質問又はメッセージを表す第2の音声再生データを適切に選択することができる。
さらに、シナリオ設定部33は、変換リスト格納部32に格納されている複数の変換リストの内から、シナリオフロー情報に従って、第2の音声再生データに対応する変換リストを選択する。これにより、第2の音声再生データに基づいて発せられる質問又はメッセージに対するユーザーの回答に対応して、適切な変換リストを選択することができる。
(音声認識方法)
次に、本発明の一実施形態に係る音声認識方法について、図1及び図2を参照しながら説明する。この音声認識方法は、音声再生データに基づいてユーザーに質問又はメッセージを発すると共に、音声認識において変換候補となる複数の単語又は文章を含む変換リストを用いてユーザーの音声を認識する音声認識装置において用いられる。
図2は、図1に示す音声認識装置において用いられる音声認識方法を示すフローチャートである。図2のステップS1において、ホストCPU61が、音声認識用の半導体集積回路装置30の電源投入時又はリセット後に、複数の音声再生データと複数の変換リストとの関係を表すシナリオフロー情報を指定する指定コマンドを、半導体集積回路装置30に送信する。
ステップS2において、半導体集積回路装置30のシナリオ設定部33が、複数の音声再生データと複数の変換リストとの関係を表すシナリオフロー情報を指定する指定コマンドを、ホストCPU61から受信する。
ステップS3において、シナリオ設定部33が、シナリオフロー情報に従って、1回の音声認識動作において、音声再生データ格納部31に格納されている複数の音声再生データの内から1つの音声再生データを選択すると共に、変換リスト格納部32に格納されている複数の変換リストの内から1つの変換リストを選択する。
ステップS4において、標準パターン抽出部36が、所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、ステップS3において選択された変換リストに含まれている各々の単語又は文章の少なくとも一部に対応する標準パターンを抽出する。
ステップS5において、音声信号合成部38が、ステップS3において選択された音声再生データに基づいて出力音声信号を合成することにより、音声出力部50から質問又はメッセージが発せられる。
これに回答してユーザーが音声を発すると、ステップS6において、信号処理部34が、入力された音声信号にフーリエ変換を施すことにより音声信号の周波数成分を抽出し、入力された音声信号の周波数成分の分布状態を表す特徴パターンを生成する。また、信号処理部34は、音声検出信号を活性化する。
音声検出信号が活性化されると、ステップS7において、一致検出部37が、入力された音声信号の少なくとも一部から生成された特徴パターンと音声認識データベースから抽出された標準パターンとの一致を検出して、変換候補となる複数の単語又は文章の内で一致が検出された単語又は文章を特定する音声認識結果を出力する。
音声検出信号が活性化されてから所定の期間内に特徴パターンと標準パターンとの一致を表す音声認識結果が得られると、ステップS8において、ホストCPU61が、一連の音声認識動作が完了したか否かを判定する。一連の音声認識動作が完了していれば、処理が終了する。一方、一連の音声認識動作が完了していなければ、処理がステップS3に戻る。
本発明の一実施形態によれば、音声認識におけるシナリオに従った変換リストを用いることにより、入力された音声信号の特徴パターンと比較される標準パターンを、変換リストに設定されたテキストデータによって表される各々の単語又は文章の少なくとも一部に対応する標準パターンに絞り込むことができる。
その際に、複数の音声再生データと複数の変換リストとの関係を表すシナリオフロー情報を指定するコマンドをホストCPU61から受信することによって、音声認識におけるシナリオの設定や変更を容易に実現することができる。従って、シナリオフローを変更する場合に、制御部60のホストCPU61におけるプログラムコードの変更が最小限で済み、音声認識におけるシナリオの変更が容易になる。また、制御部60の動作が簡素化されるので、簡単な構成のCPUを制御部60において用いることができる。
(第1の具体例)
次に、本発明の一実施形態に係る音声認識装置における音声認識動作の第1の具体例について説明する。以下においては、図1に示す音声認識装置が食堂における食券の自動販売機に適用される場合について説明する。
自動販売機には、複数の食品名を含む食品メニューが表示されている。食品メニューには、「うどん」、「そば」、「ラーメン」の文字が表されているものとする。その場合には、ユーザーが発する最初の言葉が、食品メニューに表示されている「うどん」、「そば」、「ラーメン」の内のいずれかになることが予測される。
図3は、音声再生データ格納部に格納されている音声再生データによって表される質問又はメッセージの例を示す図である。この例においては、4つの音声再生番号に対応して、4つの質問又はメッセージの内容を表す音声再生データが、音声再生データ格納部31に格納されている。音声再生データは、質問又はメッセージに含まれている音素を特定できるローマ字表記又はカナ表記を表すデータを含んでいる。
図4は、変換リスト格納部に格納されている変換リストの例を示す図である。この例においては、3つの変換リスト番号に対応して、3つの変換リストが、変換リスト格納部32に格納されている。各々の変換リストにおいて、複数の選択肢番号に対応して、複数の音声認識選択肢を表すテキストデータが設定されている。テキストデータは、音声認識選択肢に含まれている音素を特定できるローマ字表記又はカナ表記を表すデータを含んでいる。
図5は、ホストCPUからシナリオ設定部に送信される指定コマンドの例を示す図である。図5に示す指定コマンドは、図3に示す複数の音声再生データと、図4に示す複数の変換リストとの関係を表すシナリオフロー情報を指定するものである。この例においては、指定コマンドが、音声再生データ数と、複数の音声再生番号に対応する変換リスト番号と、変換リスト数と、各々の変換リストについて選択肢数及びそれらの選択肢が認識された後の音声再生番号と、シナリオ開始時の音声再生番号とを含んでいる。なお、変換リスト番号「0」は、シナリオの終了を表している。
図6は、図5に示す指定コマンドによって指定されるシナリオフロー情報に従って実行される音声認識シナリオを示す図である。例えば、ホストCPU61は、自動販売機の電源投入時又はリセット後に、指定コマンドを半導体集積回路装置30に送信する。半導体集積回路装置30のシナリオ設定部33は、受信された指定コマンドによって指定されるシナリオフロー情報に従って、音声認識動作を開始する。
まず、シナリオ設定部33は、図5に示す指定コマンドによって指定されているシナリオ開始時の音声再生番号「1」に従って、音声再生データ格納部31に格納されている複数の音声再生データの内から音声再生番号「1」に対応する音声再生データQ1を選択する。
また、シナリオ設定部33は、図5に示す指定コマンドにおいて音声再生番号1に対応する変換リスト番号「1」に従って、変換リスト格納部32に格納されている複数の変換リストの内から変換リスト番号「1」に対応する変換リストL1を選択する。
標準パターン抽出部36は、変換リストL1に含まれている音声認識選択肢A1「うどん」、音声認識選択肢A2「そば」、音声認識選択肢A3「ラーメン」の先頭の音節「う」、「そ」、「ラ」に含まれている音素「u」、「s・o」、「r・a」のそれぞれについて、対応する標準パターンを音声認識データベースから抽出する。
一方、音声信号合成部38は、音声再生データQ1に基づいて、音声信号を合成してD/A変換器40に出力する。また、D/A変換器40は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部50に出力する。これにより、音声出力部50から、「どの食品にしますか? 食品名を言って下さい。」という質問又はメッセージが発せられる。
音声出力部50から発せられた質問又はメッセージに対して、ユーザーが、表示された食品メニューを見て、「そばを下さい。」と言うと、信号処理部34は、音素「s・o・b・a・・・」のそれぞれについて、周波数成分の分布状態を表す特徴パターンを生成する。
一致検出部37は、信号処理部34によって生成された先頭の音節の第1番目の音素「s」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第1番目の音素「u」、「s」、「r」の標準パターンとを比較することにより、音素「s」の一致を検出する。
一致が検出された音素が子音を表している場合には、さらに、一致検出部37が、先頭の音節の第2番目の音素を比較する。一致検出部37は、信号処理部34によって生成された先頭の音節の第2番目の音素「o」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第2番目の音素「o」、「a」の標準パターンとを比較することにより、音素「o」の一致を検出する。
これにより、先頭の音節「そ」の一致が検出される。一致が検出された音声認識選択肢が1つであれば、ここで音声認識結果が得られる。一方、一致が検出された音声認識選択肢が複数であれば、いずれが該当するかを認識することができないので、標準パターン抽出部36は、次の音節に含まれている音素のそれぞれについて、対応する標準パターンを音声認識データベースから抽出し、一致検出部37は、一致を検出すべき音節の範囲を拡大する。
一致検出部37は、一致が検出された先頭の音節「そ」を有する音声認識選択肢「そば」を特定する音声認識結果をホストCPU61に出力する。音声認識選択肢「そば」を特定する情報としては、例えば、図4に示す変換リスト番号「1」及び選択肢番号「2」、音声認識選択肢の日本語表記「そば」又はその一部「そ」、音声認識選択肢に含まれている音素のローマ字表記「soba」又はその一部「so」等が該当する。これにより、ホストCPU61は、入力された音声信号の少なくとも一部に対応する音声認識選択肢「そば」を認識することができる。
このようにして第1回目の音声認識動作が終了すると、シナリオ設定部33は、図5に示す指定コマンドにおける変換リスト1の選択肢2が選択された後の音声再生番号「2」に従って、音声再生データ格納部31に格納されている複数の音声再生データの内から音声再生番号「2」に対応する音声再生データQ2を選択する。
また、シナリオ設定部33は、図5に示す指定コマンドにおいて音声再生番号2に対応する変換リスト番号「2」に従って、変換リスト格納部32に格納されている複数の変換リストの内から変換リスト番号「2」に対応する変換リストL2を選択する。
標準パターン抽出部36は、変換リストL2に含まれている音声認識選択肢A1「温かい」、音声認識選択肢A2「冷たい」の先頭の音節「あ」、「つ」に含まれている音素「a」、「t・u」のそれぞれについて、対応する標準パターンを音声認識データベースから抽出する。
一方、音声信号合成部38は、音声再生データQ2に基づいて、音声信号を合成してD/A変換器40に出力する。また、D/A変換器40は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部50に出力する。これにより、音声出力部50から、「温かい、冷たい、どちらにしますか?」という質問が発せられる。
音声出力部50から発せられた質問に対して、ユーザーが、「温かいのを下さい。」と言うと、信号処理部34は、音素「a・t・a・t・a・k・a・i・・・」のそれぞれについて、周波数成分の分布状態を表す特徴パターンを生成する。
一致検出部37は、信号処理部34によって生成された先頭の音節の第1番目の音素「a」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第1番目の音素「a」、「t」の標準パターンとを比較することにより、音素「a」の一致を検出する。これにより、先頭の音節「あ」の一致が検出される。
一致検出部37は、一致が検出された先頭の音節「あ」を有する音声認識選択肢「温かい」を特定する音声認識結果をホストCPU61に出力する。これにより、ホストCPU61は、入力された音声信号の少なくとも一部に対応する音声認識選択肢「温かい」を認識することができる。
このようにして第2回目の音声認識動作が終了すると、シナリオ設定部33は、図5に示す指定コマンドにおける変換リスト2の選択肢1が選択された後の音声再生番号「3」に従って、音声再生データ格納部31に格納されている複数の音声再生データの内から音声再生番号「3」に対応する音声再生データQ3を選択する。
また、シナリオ設定部33は、図5に示す指定コマンドにおいて音声再生番号3に対応する変換リスト番号「3」に従って、変換リスト格納部32に格納されている複数の変換リストの内から変換リスト番号「3」に対応する変換リストL3を選択する。
標準パターン抽出部36は、変換リストL3に含まれている音声認識選択肢A1「大盛り」、音声認識選択肢A2「普通」の先頭の音節「お」、「ふ」に含まれている音素「o」、「h・u」のそれぞれについて、対応する標準パターンを音声認識データベースから抽出する。
一方、音声信号合成部38は、音声再生データQ3に基づいて、音声信号を合成してD/A変換器40に出力する。また、D/A変換器40は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部50に出力する。これにより、音声出力部50から、「大盛り、普通、どちらにしますか?」という質問が発せられる。
音声出力部50から発せられた質問に対して、ユーザーが、「大盛りを下さい。」と言うと、信号処理部34は、音素「o・H・m・o・r・i・・・」のそれぞれについて、周波数成分の分布状態を表す特徴パターンを生成する。
一致検出部37は、信号処理部34によって生成された先頭の音節の第1番目の音素「o」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第1番目の音素「o」、「h」の標準パターンとを比較することにより、音素「o」の一致を検出する。これにより、先頭の音節「お」の一致が検出される。
一致検出部37は、一致が検出された先頭の音節「お」を有する音声認識選択肢「大盛り」を特定する音声認識結果をホストCPU61に出力する。これにより、ホストCPU61は、入力された音声信号の少なくとも一部に対応する音声認識選択肢「大盛り」を認識することができる。
このようにして第3回目の音声認識動作が終了すると、シナリオ設定部33は、図5に示す指定コマンドにおける変換リスト3の選択肢1が選択された後の音声再生番号「4」に従って、音声再生データ格納部31に格納されている複数の音声再生データの内から音声再生番号「4」に対応する音声再生データQ4を選択する。
音声信号合成部38は、音声再生データQ4に基づいて、音声信号を合成してD/A変換器40に出力する。また、D/A変換器40は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部50に出力する。これにより、音声出力部50から、「ありがとうございます。」というメッセージが発せられる。
シナリオ設定部33は、図5に示す指定コマンドにおいて音声再生番号4に対応する変換リスト番号「0」に従って、一連の音声認識動作を終了させる。その後、自動販売機が、食券の購入に必要な金額を表示部に表示して指定する。ユーザーが指定された金額を自動販売機に投入すると、自動販売機が食券を提供する。ユーザーが上記以外の選択をした場合にも、図6に示す音声認識シナリオに従って音声認識動作が行われる。
(第2の具体例)
次に、本発明の一実施形態に係る音声認識装置における音声認識動作の第2の具体例について説明する。第2の具体例においては、食券の自動販売機が設置される麺専門店と多メニュー店とにおけるメニューの種類の相違に応じて、指定コマンドにより音声認識シナリオが変更される。
図7は、音声再生データ格納部に格納されている音声再生データによって表されるフレーズの例を示す図である。複数のフレーズを組み合すことによって、1つの文章が構成される。この例においては、15個のフレーズ番号に対応して、15個のフレーズの内容を表す音声再生データが、音声再生データ格納部31に格納されている。
図8は、変換リスト格納部に格納されている変換リストの例を示す図である。この例においては、4つの変換リスト番号に対応して、4つの変換リストが、変換リスト格納部32に格納されている。各々の変換リストにおいて、複数の選択肢番号に対応して、複数の音声認識選択肢を表すテキストデータが設定されている。
(第1の音声認識シナリオ)
図9は、第1の音声認識シナリオを設定する第1の指定コマンドの例を示す図である。第1の指定コマンドにより、麺専門店において実行される第1の音声認識シナリオが設定される。第1の指定コマンドは、図7に示す複数の音声再生データと、図8に示す複数の変換リストとの関係を表すシナリオフロー情報を指定するものである。
図9に示すように、第1の指定コマンドは、音声再生設定数と、各々の音声再生についてフレーズ数、フレーズ番号、及び、音声再生に対応する変換リスト番号と、変換リスト設定数と、各々の変換リストについて選択肢数及びそれらの選択肢が認識された後の音声再生番号と、シナリオ開始時の音声再生番号とを含んでいる。なお、変換リスト番号「0」は、シナリオの終了を表している。
図10は、図9に示す第1の指定コマンドによって設定される第1の音声認識シナリオを示す図である。まず、シナリオ設定部33は、図9に示す指定コマンドによって指定されているシナリオ開始時の音声再生番号が「1」であるので、音声再生1の第1番目〜第5番目のフレーズ番号「1」、「3」、「4」、「5」、「14」に従って、音声再生データ格納部31に格納されている複数の音声再生データの内から対応するフレーズP1、P3、P4、P5、P14を表す音声再生データを選択する。
また、シナリオ設定部33は、図9に示す指定コマンドにおいて音声再生1に対応する変換リスト番号「1」に従って、変換リスト格納部32に格納されている複数の変換リストの内から変換リスト番号「1」に対応する変換リストL1を選択する。
標準パターン抽出部36は、変換リストL1に含まれている音声認識選択肢A1「うどん」、音声認識選択肢A2「そば」、音声認識選択肢A3「ラーメン」の先頭の音節に含まれている音素のそれぞれについて、対応する標準パターンを音声認識データベースから抽出する。
一方、音声信号合成部38は、フレーズP1、P3、P4、P5、P14を表す音声再生データに基づいて、音声信号を合成してD/A変換器40に出力する。また、D/A変換器40は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部50に出力する。これにより、音声出力部50から、「メニューの案内です。うどん、そば、ラーメンから選択してください。」というメッセージ(音声再生1)が発せられる。
音声出力部50から発せられたメッセージ(音声再生1)に対して、ユーザーが、「うどんを下さい。」と言うと、信号処理部34は、音素「u・d・o・N・・・」のそれぞれについて、周波数成分の分布状態を表す特徴パターンを生成する。
一致検出部37は、信号処理部34によって生成された先頭の音節の第1番目の音素「u」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第1番目の音素の標準パターンとを比較することにより、音素「u」の一致を検出する。これにより、先頭の音節「う」の一致が検出される。一致検出部37は、一致が検出された先頭の音節「う」を有する音声認識選択肢「うどん」を特定する音声認識結果をホストCPU61に出力する。
このようにして第1回目の音声認識動作が終了すると、シナリオ設定部33は、図9に示す指定コマンドにおける変換リスト1の選択肢1が選択された後の音声再生番号が「2」であるので、音声再生2の第1番目のフレーズ番号「15」に従って、音声再生データ格納部31に格納されている複数の音声再生データの内から対応するフレーズP15を表す音声再生データを選択する。
音声信号合成部38は、フレーズP15を表す音声再生データに基づいて、音声信号を合成してD/A変換器40に出力する。また、D/A変換器40は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部50に出力する。これにより、音声出力部50から、「ありがとうございます。」というメッセージ(音声再生2)が発せられる。シナリオ設定部33は、図9に示す指定コマンドにおいて音声再生2に対応する変換リスト番号「0」に従って、一連の音声認識動作を終了させる。
(第2の音声認識シナリオ)
図11は、第2の音声認識シナリオを設定する第2の指定コマンドの例を示す図である。第2の指定コマンドにより、多メニュー店において実行される第2の音声認識シナリオが設定される。第2の指定コマンドも、図7に示す複数の音声再生データと、図8に示す複数の変換リストとの関係を表すシナリオフロー情報を指定するものである。
図11に示すように、第2の指定コマンドは、音声再生設定数と、各々の音声再生についてフレーズ数、フレーズ番号、及び、音声再生に対応する変換リスト番号と、変換リスト設定数と、各々の変換リストについて選択肢数及びそれらの選択肢が認識された後の音声再生番号と、シナリオ開始時の音声再生番号とを含んでいる。なお、変換リスト番号「0」は、シナリオの終了を表している。
図12は、図11に示す第2の指定コマンドによって設定される第2の音声認識シナリオを示す図である。まず、シナリオ設定部33は、図11に示す指定コマンドによって指定されているシナリオ開始時の音声再生番号が「1」であるので、音声再生1の第1番目〜第5番目のフレーズ番号「1」、「2」、「6」、「10」、「14」に従って、音声再生データ格納部31に格納されている複数の音声再生データの内から対応するフレーズP1、P2、P6、P10、P14を表す音声再生データを選択する。
また、シナリオ設定部33は、図11に示す指定コマンドにおいて音声再生1に対応する変換リスト番号「4」に従って、変換リスト格納部32に格納されている複数の変換リストの内から変換リスト番号「4」に対応する変換リストL4を選択する。
標準パターン抽出部36は、変換リストL4に含まれている音声認識選択肢A1「麺類」、音声認識選択肢A2「定食」、音声認識選択肢A3「デザート」の先頭の音節に含まれている音素のそれぞれについて、対応する標準パターンを音声認識データベースから抽出する。
一方、音声信号合成部38は、フレーズP1、P2、P6、P10、P14を表す音声再生データに基づいて、音声信号を合成してD/A変換器40に出力する。また、D/A変換器40は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部50に出力する。これにより、音声出力部50から、「メニューの案内です。麺類、定食、デザートから選択してください。」というメッセージ(音声再生1)が発せられる。
音声出力部50から発せられたメッセージ(音声再生1)に対して、ユーザーが、「デザートにします。」と言うと、信号処理部34は、音素「d・e・z・a・H・t・o・・・」のそれぞれについて、周波数成分の分布状態を表す特徴パターンを生成する。
一致検出部37は、信号処理部34によって生成された先頭の音節の第1番目の音素「d」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第1番目の音素の標準パターンとを比較することにより、音素「d」の一致を検出する。一致が検出された音素が子音を表しているので、さらに、一致検出部37が、先頭の音節の第2番目の音素を比較することにより、音素「e」の一致を検出する。これにより、先頭の音節「デ」の一致が検出される。一致検出部37は、一致が検出された先頭の音節「デ」を有する音声認識選択肢「デザート」を特定する音声認識結果をホストCPU61に出力する。
このようにして第1回目の音声認識動作が終了すると、シナリオ設定部33は、図11に示す指定コマンドにおける変換リスト4の選択肢3が選択された後の音声再生番号が「4」であるので、音声再生4の第1番目〜第4番目のフレーズ番号「11」、「12」、「13」、「14」に従って、音声再生データ格納部31に格納されている複数の音声再生データの内から対応するフレーズP11、P12、P13、P14を表す音声再生データを選択する。
また、シナリオ設定部33は、図11に示す指定コマンドにおいて音声再生4に対応する変換リスト番号「3」に従って、変換リスト格納部32に格納されている複数の変換リストの内から変換リスト番号「3」に対応する変換リストL3を選択する。
標準パターン抽出部36は、変換リストL3に含まれている音声認識選択肢A1「ソフトクリーム」、音声認識選択肢A2「プリン」、音声認識選択肢A3「ショートケーキ」の先頭の音節に含まれている音素のそれぞれについて、対応する標準パターンを音声認識データベースから抽出する。
一方、音声信号合成部38は、フレーズP11、P12、P13、P14を表す音声再生データに基づいて、音声信号を合成してD/A変換器40に出力する。また、D/A変換器40は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部50に出力する。これにより、音声出力部50から、「ソフトクリーム、プリン、ショートケーキから選択してください。」というメッセージ(音声再生4)が発せられる。
音声出力部50から発せられたメッセージ(音声再生4)に対して、ユーザーが、「ソフトクリームにします。」と言うと、信号処理部34は、音素「s・o・h・u・t・o・・・」のそれぞれについて、周波数成分の分布状態を表す特徴パターンを生成する。
一致検出部37は、信号処理部34によって生成された先頭の音節の第1番目の音素「s」の特徴パターンと、音声認識データベースから抽出された先頭の音節の第1番目の音素の標準パターンとを比較することにより、音素「s」の一致を検出する。一致が検出された音素が子音を表しているので、さらに、一致検出部37が、先頭の音節の第2番目の音素を比較することにより、音素「o」の一致を検出する。これにより、先頭の音節「ソ」の一致が検出される。一致検出部37は、一致が検出された先頭の音節「ソ」を有する音声認識選択肢「ソフトクリーム」を特定する音声認識結果をホストCPU61に出力する。
このようにして第2回目の音声認識動作が終了すると、シナリオ設定部33は、図11に示す指定コマンドにおける変換リスト3の選択肢1が選択された後の音声再生番号が「5」であるので、音声再生5の第1番目のフレーズ番号「15」に従って、音声再生データ格納部31に格納されている複数の音声再生データの内から対応するフレーズP15を表す音声再生データを選択する。
音声信号合成部38は、フレーズP15を表す音声再生データに基づいて、音声信号を合成してD/A変換器40に出力する。また、D/A変換器40は、ディジタルの音声信号をアナログの音声信号に変換して、アナログの音声信号を音声出力部50に出力する。これにより、音声出力部50から、「ありがとうございます。」というメッセージ(音声再生5)が発せられる。シナリオ設定部33は、図11に示す指定コマンドにおいて音声再生5に対応する変換リスト番号「0」に従って、一連の音声認識動作を終了させる。
以上の実施形態においては、本発明を自動販売機に適用した具体例について説明したが、本発明は、この実施形態に限定されるものではなく、一般的な電子機器に適用可能であると共に、当該技術分野において通常の知識を有する者によって、本発明の技術的思想内で多くの変形が可能である。
10…音声入力部、20…A/D変換器、30…半導体集積回路装置、31…音声再生データ格納部、32…変換リスト格納部、33…シナリオ設定部、34…信号処理部、35…音声認識データベース格納部、36…標準パターン抽出部、37…一致検出部、38…音声信号合成部、39…音声合成データベース格納部、40…D/A変換器、50…音声出力部、60…制御部、61…ホストCPU、62…格納部、100…音声認識装置

Claims (7)

  1. 音声再生データに基づいてユーザーに質問又はメッセージを発すると共に、前記ユーザーの音声に対する音声認識の処理を行う音声認識装置において用いられる半導体集積回路装置であって、
    複数の前記音声再生データと複数の変換リストとの関係を表すシナリオフロー情報を指定するコマンドを受信し、前記シナリオフロー情報に従って、音声再生データ格納部に格納されている複数の前記音声再生データの内から所定の音声再生データを選択すると共に、変換リスト格納部に格納されている複数の前記変換リストの内から所定の変換リストを選択するシナリオ設定部と、
    所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、前記所定の変換リストに含まれている各々の単語又は文章の少なくとも一部に対応する標準パターンを抽出する標準パターン抽出部と、
    前記所定の音声再生データに基づいて出力音声信号を合成する音声信号合成部と、
    入力された音声信号にフーリエ変換を施すことにより前記音声信号の周波数成分を抽出し、前記音声信号の周波数成分の分布状態を表す特徴パターンを生成する信号処理部と、
    前記音声信号の少なくとも一部から生成された前記特徴パターンと前記音声認識データベースから抽出された前記標準パターンとの比較を行い、音声認識結果を出力する一致検出部と、
    を具備する半導体集積回路装置。
  2. 前記シナリオ設定部が、1回の音声認識動作において、前記音声再生データ格納部に格納されている複数の前記音声再生データの内から、前記シナリオフロー情報に従って前記所定の音声再生データを選択すると共に、前記変換リスト格納部に格納されている複数の前記変換リストの内から、前記シナリオフロー情報に設定されている前記所定の変換リストを選択する、請求項1記載の半導体集積回路装置。
  3. 前記音声信号合成部が、前記シナリオ設定部によって選択された第1の音声再生データに基づいて出力音声信号を合成した後に、前記シナリオ設定部が、前記一致検出部から出力される音声認識結果に対応して前記シナリオフロー情報に設定されている第2の音声再生データを選択する、請求項1又は2記載の半導体集積回路装置。
  4. 前記シナリオ設定部が、複数の前記変換リストの内から、前記シナリオフロー情報に従って、前記第2の音声再生データに対応する前記所定の変換リストを選択する、請求項3記載の半導体集積回路装置。
  5. 前記シナリオ設定部が、少なくとも1つの前記音声再生データ又は少なくとも1つの前記変換リストを設定又は変更するコマンドを受信して、前記音声再生データ格納部において前記少なくとも1つの前記音声再生データを設定又は変更し、又は、前記変換リスト格納部において前記少なくとも1つの前記変換リストを設定又は変更する、請求項1〜4のいずれか1項記載の半導体集積回路装置。
  6. 請求項1〜5のいずれか1項記載の半導体集積回路装置と、
    前記複数の音声再生データと前記複数の変換リストとの対応関係を表す前記シナリオフロー情報を指定する前記コマンドを前記半導体集積回路装置に送信する制御部と、
    を具備する音声認識装置。
  7. 音声再生データに基づいてユーザーに質問又はメッセージを発すると共に、前記ユーザーの音声に対する音声認識の処理を行う音声認識装置において用いられる音声認識方法であって、
    複数の前記音声再生データと複数の変換リストとの関係を表すシナリオフロー情報を指定するコマンドを受信するステップ(a)と、
    前記シナリオフロー情報に従って、音声再生データ格納部に格納されている複数の前記音声再生データの内から所定の音声再生データを選択すると共に、変換リスト格納部に格納されている複数の前記変換リストの内から所定の変換リストを選択するステップ(b)と、
    所定の言語において用いられる複数の音素の周波数成分の分布状態を表す標準パターンを含む音声認識データベースから、前記所定の変換リストに含まれている各々の単語又は文章の少なくとも一部に対応する標準パターンを抽出するステップ(c)と、
    前記所定の音声再生データに基づいて出力音声信号を合成するステップ(d)と、
    入力された音声信号にフーリエ変換を施すことにより前記音声信号の周波数成分を抽出し、前記音声信号の周波数成分の分布状態を表す特徴パターンを生成するステップ(e)と、
    前記音声信号の少なくとも一部から生成された前記特徴パターンと前記音声認識データベースから抽出された前記標準パターンとの比較を行い、音声認識結果を出力するステップ(f)と、
    を具備する音声認識方法。
JP2013140426A 2013-07-04 2013-07-04 音声認識装置及び方法、並びに、半導体集積回路装置 Withdrawn JP2015014665A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013140426A JP2015014665A (ja) 2013-07-04 2013-07-04 音声認識装置及び方法、並びに、半導体集積回路装置
US14/324,771 US9190060B2 (en) 2013-07-04 2014-07-07 Speech recognition device and method, and semiconductor integrated circuit device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013140426A JP2015014665A (ja) 2013-07-04 2013-07-04 音声認識装置及び方法、並びに、半導体集積回路装置

Publications (1)

Publication Number Publication Date
JP2015014665A true JP2015014665A (ja) 2015-01-22

Family

ID=52133401

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013140426A Withdrawn JP2015014665A (ja) 2013-07-04 2013-07-04 音声認識装置及び方法、並びに、半導体集積回路装置

Country Status (2)

Country Link
US (1) US9190060B2 (ja)
JP (1) JP2015014665A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017107098A (ja) * 2015-12-10 2017-06-15 株式会社リクルートライフスタイル 音声翻訳システム及びその制御方法、並びに音声翻訳プログラム
JP2020034987A (ja) * 2018-08-27 2020-03-05 京セラ株式会社 音声認識機能を有する電子機器、その電子機器の制御方法およびプログラム
JP2020116330A (ja) * 2019-01-28 2020-08-06 株式会社ソフイア 遊技機

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10134424B2 (en) * 2015-06-25 2018-11-20 VersaMe, Inc. Wearable word counter
US10789939B2 (en) 2015-06-25 2020-09-29 The University Of Chicago Wearable word counter
US10959648B2 (en) 2015-06-25 2021-03-30 The University Of Chicago Wearable word counter
JP2017062300A (ja) * 2015-09-24 2017-03-30 セイコーエプソン株式会社 半導体装置、システム、電子機器、及び、音声認識方法
WO2020081544A1 (en) * 2018-10-19 2020-04-23 Confia Systems, Inc. Efficient encoding for speech recognition
CN110827799B (zh) * 2019-11-21 2022-06-10 百度在线网络技术(北京)有限公司 用于处理语音信号的方法、装置、设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003005786A (ja) * 2001-06-18 2003-01-08 Oki Electric Ind Co Ltd 音声対話インターフェース装置
JP2003195891A (ja) * 2001-12-27 2003-07-09 Denso Corp 電子機器
JP2006133296A (ja) * 2004-11-02 2006-05-25 Matsushita Electric Ind Co Ltd 音声対話装置
JP2010054897A (ja) * 2008-08-29 2010-03-11 Brother Ind Ltd 音声認識装置、音声認識プログラム、受付装置および受付プログラム
JP2014048335A (ja) * 2012-08-29 2014-03-17 Toshiba Tec Corp 認識辞書作成装置及び認識辞書作成プログラム

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19610019C2 (de) * 1996-03-14 1999-10-28 Data Software Gmbh G Digitales Sprachsyntheseverfahren
US6061646A (en) * 1997-12-18 2000-05-09 International Business Machines Corp. Kiosk for multiple spoken languages
US6556972B1 (en) * 2000-03-16 2003-04-29 International Business Machines Corporation Method and apparatus for time-synchronized translation and synthesis of natural-language speech
CN1369834B (zh) * 2001-01-24 2010-04-28 松下电器产业株式会社 语音转换设备
CN1159702C (zh) * 2001-04-11 2004-07-28 国际商业机器公司 具有情感的语音-语音翻译***和方法
JP3920812B2 (ja) * 2003-05-27 2007-05-30 株式会社東芝 コミュニケーション支援装置、支援方法、及び支援プログラム
DE60322985D1 (de) * 2003-12-16 2008-09-25 Loquendo Societa Per Azioni Text-zu-sprache-system und verfahren, computerprogramm dafür
US7454348B1 (en) * 2004-01-08 2008-11-18 At&T Intellectual Property Ii, L.P. System and method for blending synthetic voices
DE602005026778D1 (de) * 2004-01-16 2011-04-21 Scansoft Inc Corpus-gestützte sprachsynthese auf der basis von segmentrekombination
US20050164788A1 (en) * 2004-01-26 2005-07-28 Wms Gaming Inc. Gaming device audio status indicator
US20050192095A1 (en) * 2004-02-27 2005-09-01 Chiu-Hao Cheng Literal and/or verbal translator for game and/or A/V system
US7785197B2 (en) * 2004-07-29 2010-08-31 Nintendo Co., Ltd. Voice-to-text chat conversion for remote video game play
US20070124142A1 (en) * 2005-11-25 2007-05-31 Mukherjee Santosh K Voice enabled knowledge system
WO2007070558A2 (en) * 2005-12-12 2007-06-21 Meadan, Inc. Language translation using a hybrid network of human and machine translators
US7684991B2 (en) * 2006-01-05 2010-03-23 Alpine Electronics, Inc. Digital audio file search method and apparatus using text-to-speech processing
JP2008015209A (ja) 2006-07-05 2008-01-24 Kddi Corp 音声認識装置およびその認識辞書更新方法、プログラムならびに記憶媒体
EP1902906B1 (en) * 2006-09-22 2017-07-26 Harman Becker Automotive Systems GmbH Add-on module for externally controlling a speech dialog system
JP4213755B2 (ja) * 2007-03-28 2009-01-21 株式会社東芝 音声翻訳装置、方法およびプログラム
JP2009189797A (ja) * 2008-02-13 2009-08-27 Aruze Gaming America Inc ゲーミングマシン
KR101589433B1 (ko) * 2009-03-11 2016-01-28 삼성전자주식회사 동시 통역 시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003005786A (ja) * 2001-06-18 2003-01-08 Oki Electric Ind Co Ltd 音声対話インターフェース装置
JP2003195891A (ja) * 2001-12-27 2003-07-09 Denso Corp 電子機器
JP2006133296A (ja) * 2004-11-02 2006-05-25 Matsushita Electric Ind Co Ltd 音声対話装置
JP2010054897A (ja) * 2008-08-29 2010-03-11 Brother Ind Ltd 音声認識装置、音声認識プログラム、受付装置および受付プログラム
JP2014048335A (ja) * 2012-08-29 2014-03-17 Toshiba Tec Corp 認識辞書作成装置及び認識辞書作成プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017107098A (ja) * 2015-12-10 2017-06-15 株式会社リクルートライフスタイル 音声翻訳システム及びその制御方法、並びに音声翻訳プログラム
JP2020034987A (ja) * 2018-08-27 2020-03-05 京セラ株式会社 音声認識機能を有する電子機器、その電子機器の制御方法およびプログラム
JP7055721B2 (ja) 2018-08-27 2022-04-18 京セラ株式会社 音声認識機能を有する電子機器、その電子機器の制御方法およびプログラム
JP2020116330A (ja) * 2019-01-28 2020-08-06 株式会社ソフイア 遊技機

Also Published As

Publication number Publication date
US20150012275A1 (en) 2015-01-08
US9190060B2 (en) 2015-11-17

Similar Documents

Publication Publication Date Title
US11450313B2 (en) Determining phonetic relationships
US9190060B2 (en) Speech recognition device and method, and semiconductor integrated circuit device
US8015011B2 (en) Generating objectively evaluated sufficiently natural synthetic speech from text by using selective paraphrases
US10741169B1 (en) Text-to-speech (TTS) processing
JP4054507B2 (ja) 音声情報処理方法および装置および記憶媒体
US10692484B1 (en) Text-to-speech (TTS) processing
US9886947B2 (en) Speech recognition device and method, and semiconductor integrated circuit device
US20100057435A1 (en) System and method for speech-to-speech translation
US11763797B2 (en) Text-to-speech (TTS) processing
US20110238407A1 (en) Systems and methods for speech-to-speech translation
US9978359B1 (en) Iterative text-to-speech with user feedback
US9390709B2 (en) Voice recognition device and method, and semiconductor integrated circuit device
US20030154080A1 (en) Method and apparatus for modification of audio input to a data processing system
US9240178B1 (en) Text-to-speech processing using pre-stored results
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
JP2017009842A (ja) 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム
JP2016521383A (ja) 少なくとも一つの意味論的単位の集合を改善するための方法、装置およびコンピュータ読み取り可能な記録媒体
KR20150105075A (ko) 자동 통역 장치 및 방법
US9484014B1 (en) Hybrid unit selection / parametric TTS system
JP2015055653A (ja) 音声認識装置及び方法、並びに、電子機器
JP6221253B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JP6221267B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JP2013195928A (ja) 音声素片切出装置
JPH11259094A (ja) 規則音声合成装置
JPS6211732B2 (ja)

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150113

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160316

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20160617

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20160624

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170515

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170606

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20170804