JP2006208486A - 音声入力装置 - Google Patents

音声入力装置 Download PDF

Info

Publication number
JP2006208486A
JP2006208486A JP2005017302A JP2005017302A JP2006208486A JP 2006208486 A JP2006208486 A JP 2006208486A JP 2005017302 A JP2005017302 A JP 2005017302A JP 2005017302 A JP2005017302 A JP 2005017302A JP 2006208486 A JP2006208486 A JP 2006208486A
Authority
JP
Japan
Prior art keywords
timing
voice
voice recognition
dictionary
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005017302A
Other languages
English (en)
Inventor
Atsushi Yamashita
敦士 山下
Atsushi Iizaka
篤 飯阪
Takuya Hirai
卓哉 平井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2005017302A priority Critical patent/JP2006208486A/ja
Publication of JP2006208486A publication Critical patent/JP2006208486A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 ユーザの音声入力に対するレスポンスの向上と誤認識の割合の低減とを両立し、操作性を向上した音声入力装置を提供すること。
【解決手段】 音声入力装置に、音声認識処理のための第1および第2の辞書データと、ユーザの発話開始タイミングを検出する始端検出部と、始端検出部が発話開始タイミングを検出した後、一定周期で発生する第1の音声認識タイミングを検出する第1タイミング検出部と、ユーザの発話終了タイミングを第2の音声認識タイミングとして検出する第2タイミング検出部と、第1タイミング検出部が第1の音声認識タイミングを検出したときには第1の辞書データを用いて音声認識処理を行い、第2タイミング検出部が第2の音声認識タイミングを検出したときには第2の辞書データを用いて音声認識処理を行う音声認識部とを設ける。
【選択図】 図1

Description

本発明は、ユーザの発話内容を認識する音声入力装置に関し、より特定的には、複数の辞書を適宜に選択して音声認識に利用する音声入力装置に関する。
音声入力装置は、ユーザがコマンドを発話すると、発話された音声を入力し、格納されている辞書と照合・認識し、音声に対応するコマンド信号を機器に出力する入力インターフェースである。音声入力装置を用いたコマンド入力は、手による操作や視線の移動を必要としないので、ブラインドタッチが苦手な初心者や、車を運転中のドライバーにとって、特に有用である。
ところで、音声入力装置の核となる技術である音声認識技術では、DPマッチング法やHMM(隠れマルコフモデル)を用いた方法などが研究・開発され、その認識率も徐々に向上している。しかし、現実の使用場面では、ユーザの言い淀み・言い間違い、また雑音の影響などによって、ユーザが発話したコマンドが誤認識されてしまう状況が依然として存在している。
そこで、音声認識の辞書に「違う」「キャンセル」など、直前の音声認識結果をキャンセルするコマンドを追加する方法が、一部のカーナビゲーションシステムなどの音声認識装置に搭載されている(例えば特許文献1を参照)。特許文献1に記載の装置では、コマンド群が階層構造をなしており、各階層の辞書には「キャンセル」および「終了」のコマンドを表す単語がそれぞれ追加される。そして、誤認識によって意図しないコマンドが入力されたときに、ユーザが「キャンセル」を表す単語を発声すると、そのコマンドがキャンセルされ、直前の階層に戻ってユーザにコマンドの発声を促し、ユーザが「終了」を表す単語を発声すると、音声認識動作を終了する。これにより、音声入力装置がコマンドを誤認識してしまった場合でも、ユーザはその音声認識結果を取り消したり、音声認識処理そのものを終了させたりすることができる。
特開2000−267694号公報
ところが、特許文献1に代表される従来の方法では、キャンセルや終了を意図する音声認識操作そのものに対するコマンドと、機器(たとえばカーナビゲーション装置)に対するコマンド群とが、特に区別されることなく一様に扱われるため、以下の課題が発生する。
第1の課題は、反応時間がかかるため、即座にキャンセルできないことである。つまり、キャンセルコマンドまたは終了コマンドが実行されるタイミングが、通常のコマンドと同じであるため、ユーザにとってキャンセルまたは終了するまでの待ち時間が生じ、いらいらさせられる。またコマンドを言い間違えたときに、その場で即座にキャンセルすることができない。
第2の課題は、認識処理にメモリを消費する、また処理負荷がかかることである。つまり、音声認識処理で用いる辞書にキャンセルコマンドや終了コマンドに対応する語彙を追加する必要があるので、その分だけ辞書内の語彙数が増大し、音声認識処理のために、より多くのメモリ容量と時間が必要となる。
第3の課題は、キャンセルコマンドそのものを誤認識してしまう可能性があることである。つまり、第2の課題と同じく、辞書内の語彙数が増大するので、特に音韻的に似た語彙が存在すると誤認識の確率が上がってしまう。ユーザにとって誤認識をキャンセルするために発した「キャンセル」というコマンドが別のコマンドに誤認識されてしまうことは、ユーザを苛立たせる結果となる。
それゆえに本発明の目的は、ユーザの音声入力に対するレスポンスの向上と誤認識の割合の低減とを両立し、操作性を向上した音声入力装置を提供することである。
上記課題を解決するために、本発明は以下の構成を採用した。なお、括弧内の参照符号は、本発明の理解を助けるために図面との対応関係を示したものであって、本発明の範囲を何ら限定するものではない。
第1の発明は、ユーザが発した音声を電気信号に変換して音声データとして入力するマイク(100)と、前記マイクから入力された音声データを記憶するバッファメモリ(200)と、音声認識処理のための第1および第2の辞書データ(410、420)と、前記バッファメモリに記憶された音声データに基づいて、ユーザの発話開始タイミングを検出する始端検出部(310)と、前記始端検出部が発話開始タイミングを検出した後、一定周期で発生する第1の音声認識タイミングを検出する第1タイミング検出部(320)と、前記バッファメモリに記憶された音声データに基づいて、ユーザの発話終了タイミングを第2の音声認識タイミングとして検出する第2タイミング検出部(330)と、前記第1タイミング検出部が前記第1の音声認識タイミングを検出したときには、前記バッファメモリに記憶された音声データと前記第1の辞書データを用いて音声認識処理を行い、前記第2タイミング検出部が前記第2の音声認識タイミングを検出したときには、前記バッファメモリに記憶された音声データと前記第2の辞書データを用いて音声認識処理を行う音声認識部(500)とを備えた、音声入力装置である。
第2の発明は、第1の発明において、前記第1の辞書データには、音声認識動作の取り消しおよび終了のうちの少なくとも1つに対応するコマンドが含まれていることを特徴とする。
第3の発明は、第1の発明において、前記第2タイミング検出部は、音声データの音パワーが予め定められた閾値を下回った時点からその状態が予め定められた時間以上続いたときに、その音パワーが予め定められた閾値を下回った時点をユーザの発話終了タイミングとして検出することを特徴とする。
本発明によれば、第1の辞書に登録されている語彙については、ユーザの発話の終了を待つことなく音声認識処理されるので、第1の辞書に登録されている語彙に対する音声入力装置のレスポンスを向上させることができる。特に、音声入力装置が受け付けることのできる語彙を第1の辞書と第2の辞書の2つの辞書に分散させることで、第1の辞書を用いた音声認識処理の処理負担が大幅に軽減され、この第1の辞書を用いた音声認識処理を短い周期で繰り返し実行することを可能にしている。また、第2の辞書に登録されている語彙に関しては、ユーザの発話の終了を待ってから音声認識処理されるので、より正確な認識が可能である。
例えば、第1の辞書データには比較的利用頻度の高い語彙を登録しておき、第2の辞書データには比較的利用頻度の低い語彙を登録しておけば、音声入力装置の全体的なレスポンスの向上に有効である。また例えば、第1の辞書データには比較的急を要するコマンドに対応する語彙を登録しておき、第2の辞書データには比較的急を要しないコマンドに対応する語彙を登録しておくことにより、急を要するコマンドを迅速に音声入力することができる。
以下に、本発明の実施形態について詳しく説明する。
図1は、本発明の実施形態に関わる音声入力装置の一構成を示した図である。図1において、音声入力装置10は、マイク100、バッファメモリ200、タイミング検出部300、辞書記憶部400および音声認識部500から成る。
マイク100は、ユーザが発話した声を音声データとして入力する。なお音声入力装置では一般的に、対雑音耐性を高めるために1入力や2入力の指向性マイクを用いる場合があるが、本発明ではマイクの種類に制約はない。
バッファメモリ200は、マイク100が入力した音声データを一時的に記憶しておくためのメモリであって、典型的にはRAMで構成される。なお音声入力装置では一般的に、対雑音耐性を高めるために、エコーキャンセルや音源分離など、音声データに対して各種の信号処理を施す場合があるが、本発明ではそれらの信号処理手法に制約はない。ただし、音声データに対して何らかの信号処理を施す場合には、処理後の音声データがバッファメモリ200に記憶されるものとする。
タイミング検出部300は、後述する音声認識部500における音声認識タイミングを検出して音声認識部500に通知する。タイミング検出部300の詳細については後述する。タイミング検出部300は、ハードウェア(回路)のみで実現しても良いし、MPU、RAM、ROM等から成るハードウェア(コンピュータ)とソフトウェアとの組み合わせで実現してもよい。
辞書記憶部400は、後述する音声認識部500による音声認識処理に利用される辞書データ(ユーザの発話中に含まれていることが期待される語彙群を含む)を記憶したものであって、典型的には、RAM、ROMまたは磁気ディスクなどの大型記憶装置で構成される。ここでの「語彙」とは、典型的には、ユーザによって入力され得るコマンドを表す単語を音素列に変換したデータである。辞書記憶部400に記憶される辞書データの詳細については後述する。
音声認識部500は、バッファメモリ200に記憶された音声データが、辞書記憶部400の辞書データに含まれているどの語彙にマッチするかを検索する。音声認識のアルゴリズムとしては、DPマッチング法、HMM(隠れマルコフモデル)による方法などが知られている。音声認識部500は、ハードウェア(回路)のみで実現しても良いし、MPU、RAM、ROM等から成るハードウェア(コンピュータ)とソフトウェアとの組み合わせで実現してもよい。
図2は、タイミング検出部300の構成を示す図である。
図2において、タイミング検出部300は、音声認識部500が音声認識処理を行うタイミングを検出して音声認識部500に通知するものであって、始端検出部310、第1タイミング検出部320および第2タイミング検出部330から成る。
始端検出部310は、バッファメモリ200を絶えず監視し、ユーザの発話区間の始端(すなわちユーザが発話を開始したタイミング:図3のTs)を検出して音声認識部500に通知する。典型的には、音パワーが予め定められた閾値を越えた時点を、発話区間の始端として音声認識部500に通知する。
第1タイミング検出部320は、始端検出部310によって始端が検出されたことを受けて、例えばタイマ等を利用して、一定周期(例えば10〜100ms程度)で発生する第1の音声認識タイミング(図3のT1、T2、T3、T4、・・・、Tk、・・・、Tn)を検出して音声認識部500に通知する。
第2タイミング検出部330は、ユーザの発話区間の終端(すなわちユーザが発話を終了したタイミング:図3のTe)を検出して音声認識部500に通知する。典型的には、音パワーが予め定められた閾値を下回ってから、その状態が予め定められた時間(例えば1000ms)以上続いたときに、その音パワーが予め定められた閾値を下回った時点を、発話区間の終端として音声認識部500に通知する。
図4は、辞書記憶部400の構成を示す図である。
図4において、辞書記憶部400には、音声認識部500が利用する第1の辞書410と第2の辞書420が記憶されている。図4には、各辞書に格納されている語彙の一例が示されている。
第1の辞書410は、音声認識中に発する最も重要かつ頻度の高いコマンドに対応する語彙群を含む。典型的には、音声認識動作そのものに対するコマンドに対応する語彙群を含む。具体的には、図4に示すように、「違う」「取り消し」などの、直前の発話に対するキャンセルコマンド、「聞き直す」「もう一度」などの、直前の音声ガイダンス(音声出力によるガイダンスであって、例えば「目的地を指定して下さい」などの音声ガイダンス)の再呈示要求コマンド、「終了」「終わる」などの、音声認識動作の終了コマンドに対応する語彙群を含む。もちろん、図4に示した語彙は一例であって、第1の辞書410に含まれる語彙はこれに限らない。
第2の辞書420は、典型的には、音声入力装置10を通じてユーザが音声制御しようとする対象機器(例えばカーナビゲーション装置)に対するコマンドに対応する語彙群を含む。言い換えれば、従来の音声入力装置において利用される辞書から第1の辞書410の語彙群を除いた辞書とも言える。図4に示した第2の辞書420に含まれる語彙群は、音声入力装置10をカーナビゲーションシステムに適用した場合の例である。例えば、「いつもの場所」は、ユーザが頻繁に行く場所の一覧を表示するためのコマンドであり、「登録ポイント」は、ユーザが予め登録した場所の一覧を表示するためのコマンドである。もちろん、図4に示した語彙は一例であって、第2の辞書420に含まれる語彙はこれに限らない。
図5は、本実施形態に関わる音声入力装置10の動作を示すフローチャートである。
音声入力装置10には、音声認識を開始する手段が備えられている。この手段は、典型的には、ボタンスイッチであり、ユーザがこのボタンを押すことによって音声入力装置10は図5に示す動作を開始する。なお、このようなボタンスイッチを設けずに、音声入力装置10の電源が入った時点ですぐに図5に示す動作を開始するようにしてもよい。
ステップS10では、マイク100から入力された音声データ(例えば、1フレーム(30ms)分の音声データ)がバッファメモリ200に格納される。
ステップS12では、発話フラグがONかOFFかを判断する。ここで、発話フラグとは、ユーザの発話区間の始端が検出されたかどうかを示すフラグであって、音声入力装置10内の任意の記憶領域に記憶されて適宜に更新されるフラグである。ステップS12において発話フラグがOFFであると判断された場合にはステップS14に進み、ONであると判断された場合にはステップS18に進む。
ステップS14では、発話区間の始端(図3のTs)を検出したかどうかを判断する。そして、始端を検出した場合には、ステップS16で発話フラグをONにした後、ステップS10に戻り、検出していない場合にはそのままステップS10に戻る。
ステップS18では、第1の音声認識タイミング(図3のT1、T2、T3、T4、・・・、Tk、・・・Tnのいずれか)を検出したかどうかを判断する。そして、第1の音声認識タイミングを検出した場合にはステップS20に進み、検出していない場合にはステップS28に進む。
ステップS20では、ステップS14で検出された始端(図3のTs)から、ステップS18で検出された第1の音声認識タイミング(図3のT1、T2、T3、T4、・・・、Tk、・・・Tnのいずれか)までの区間の音声データを対象として、第1の辞書410を用いて音声認識処理を行う。
ステップS22では、ステップS20の音声認識処理によって、第1の辞書410の中に登録されている語彙群(図4の「違う」「取り消し」「保留」・・・)の中に、上記の音声データにマッチするものが含まれているかどうかを判断する。そして、含まれていた場合にはステップS24に進み、含まれていなかった場合にはステップS28に進む。
ステップS24では、発話フラグをオフにする。
ステップS26では、ステップS20で検出された語彙(コマンド)に応じた処理を実行する。例えば、図4の「違う」や「取り消し」などの取り消しコマンドを検出した場合には、音声入力に基づいて為された直前の制御を取り消すコマンドを制御対象機器に送信し、ステップS10に戻る。また例えば、「聞き直す」や「もう一度」のような聞き直し要求コマンドを検出した場合には、直前にユーザに提示したガイダンス情報を音声や表示によってユーザに再呈示し、ステップS10に戻る。また例えば、「終了」や「終わる」などの終了コマンドを検出した場合には、音声入力装置10の動作を終了する。
ステップS28では、第2の音声認識タイミング(図3のTe)を検出したかどうかを判断する。そして、第2の音声認識タイミングを検出した場合にはステップS30に進み、検出していない場合にはステップS10に戻る。
ステップS30では、発話フラグをオフにする。
ステップS32では、ステップS14で検出された始端(図3のTs)から、ステップS28で検出された第2の音声認識タイミング(図3のTe)までの区間の音声データを対象として、第2の辞書420を用いて音声認識処理を行う。
ステップS34では、ステップS32の音声認識処理によって、第2の辞書420の中に登録されている語彙群(図4の「いつもの場所」「登録ポイント」「電話をかける」・・・)の中に、上記の音声データにマッチするものが含まれているかどうかを判断する。そして、含まれていた場合にはステップS36に進み、含まれていなかった場合にはステップS10に戻る。
ステップS36では、ステップS32で検出された語彙(コマンド)に応じた処理を実行する。すなわち、ステップS32で検出された語彙に対応するコマンドを制御対象機器に送信し、ステップS10に戻る。
以上のように、本実施の形態によれば、ユーザが発話中であっても、第1の辞書410を利用した音声認識を一定周期で随時行うことで、第1の辞書410に登録されている語彙に対応するコマンドが発せられたときに、そのコマンドを迅速に処理することができる。すなわち、図3の例では、第2の辞書420に含まれている語彙については、第2タイミング検出部330が発話区間の終端Teを検出した時点(すなわちTeから1000ms後)で実行される音声認識処理において認識されるのに対して、第1の辞書410に含まれている語彙については、Tkの時点で実行される音声認識処理において認識される。
また、第1の辞書410に含まれている語彙数が少ないため、第1の辞書410を用いた音声認識処理に必要となる処理負荷やメモリ量は小さく、第1の辞書410に含まれている語彙に関する誤認識の割合を低減することができる。
なお、第1の辞書410をさらに優先度に応じて複数の辞書に分割して利用してもよい。例えば、図4の第1の辞書410に含まれている語彙のうち、「違う」「取り消し」だけを辞書Aに登録し、残りの語彙を辞書Bに登録し、第1タイミング検出部320の代わりに、辞書Aおよび辞書Bにそれぞれ対応する2つのタイミング検出部を設ける。そして、辞書Aについては例えば10msの周期で音声認識処理を行い、辞書Bについては例えば300msの周期で音声認識処理を行うようにしてもよい。これにより、「違う」「取り消し」コマンドに対するレスポンスをさらに向上させることができる。
なお、本実施の形態では、第1の音声認識タイミングと第2の音声認識タイミングとで異なる辞書を利用するとしたが、辞書だけでなく、音声認識アルゴリズムもそれぞれのタイミングで異なるものを利用してもよい。例えば、音声認識部500として、比較的処理負担の小さい音声認識アルゴリズムを用いて音声認識処理を行う第1の音声認識部と、比較的処理負担の大きい音声認識アルゴリズムを用いて音声認識処理を行う第2の音声認識部とを設け、第1の音声認識タイミングでは第1の音声認識部が音声認識処理を行い、第2の音声認識タイミングでは第2の音声認識部が音声認識処理を行うようにしてもよい。これにより、第1の辞書410を用いた音声認識処理の負担をさらに軽減し、第1の音声認識タイミングの周期をさらに短縮させ、結果として第1の辞書410に含まれている語彙に関する音声入力のレスポンスをさらに向上させることができる。
以上のように、本発明の音声入力装置は、発話途中に検出したい単語、発話後に検出したい単語などを別個に辞書に格納することができるので、辞書内の単語に優先順位を設けることができ、大きな記憶領域や処理負荷を必要とせずに、直感的で初心者にとって分かり易い入力インターフェースが提供できるという効果を有するため、ユーザの発話を認識して機器の操作等を行う入力装置として有用である。
本発明の実施形態に関わる音声入力装置の構成を表す図 図1のタイミング検出部300の詳細な構成を表す図 図1のタイミング検出部300の詳細な動作を表す図 図1の辞書記憶部400の詳細な構成を表す図 本発明の実施形態に関わる音声入力装置の動作を表す図
符号の説明
10 音声入力装置
100 マイク
200 バッファメモリ
300 タイミング検出部
310 始端検出部
320 第1タイミング検出部
330 第2タイミング検出部
400 辞書記憶部
410 第1の辞書
420 第2の辞書
500 音声認識部

Claims (4)

  1. ユーザが発した音声を電気信号に変換して音声データとして入力するマイクと、
    前記マイクから入力された音声データを記憶するバッファメモリと、
    音声認識処理のための第1および第2の辞書データと、
    前記バッファメモリに記憶された音声データに基づいて、ユーザの発話開始タイミングを検出する始端検出部と、
    前記始端検出部が発話開始タイミングを検出した後、一定周期で発生する第1の音声認識タイミングを検出する第1タイミング検出部と、
    前記バッファメモリに記憶された音声データに基づいて、ユーザの発話終了タイミングを第2の音声認識タイミングとして検出する第2タイミング検出部と、
    前記第1タイミング検出部が前記第1の音声認識タイミングを検出したときには、前記バッファメモリに記憶された音声データと前記第1の辞書データを用いて音声認識処理を行い、前記第2タイミング検出部が前記第2の音声認識タイミングを検出したときには、前記バッファメモリに記憶された音声データと前記第2の辞書データを用いて音声認識処理を行う音声認識部とを備えた、音声入力装置。
  2. 前記第1の辞書データには、音声認識動作の開始、一時中断および終了のうちの少なくとも1つに対応するコマンドが含まれていることを特徴とする、請求項1に記載の音声入力装置。
  3. 前記第2タイミング検出部は、音声データの音パワーが予め定められた閾値を下回った時点からその状態が予め定められた時間以上続いたときに、その音パワーが予め定められた閾値を下回った時点をユーザの発話終了タイミングとして検出することを特徴とする、請求項1に記載の音声入力装置。
  4. マイクから入力された音声データをバッファメモリに記憶する記憶ステップと、
    前記バッファメモリに記憶された音声データに基づいて、ユーザの発話開始タイミングを検出する始端検出ステップと、
    前記始端検出ステップで発話開始タイミングが検出された後、一定周期で発生する第1の音声認識タイミングを検出する第1タイミング検出ステップと、
    前記バッファメモリに記憶された音声データに基づいて、ユーザの発話終了タイミングを第2の音声認識タイミングとして検出する第2タイミング検出ステップと、
    前記第1タイミング検出ステップで前記第1の音声認識タイミングが検出されたときには、前記バッファメモリに記憶された音声データと前記第1の辞書データを用いて音声認識処理を行い、前記第2タイミング検出ステップで前記第2の音声認識タイミングが検出されたときには、前記バッファメモリに記憶された音声データと前記第2の辞書データを用いて音声認識処理を行う音声認識ステップとを備えた、音声入力方法。
JP2005017302A 2005-01-25 2005-01-25 音声入力装置 Pending JP2006208486A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005017302A JP2006208486A (ja) 2005-01-25 2005-01-25 音声入力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005017302A JP2006208486A (ja) 2005-01-25 2005-01-25 音声入力装置

Publications (1)

Publication Number Publication Date
JP2006208486A true JP2006208486A (ja) 2006-08-10

Family

ID=36965453

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005017302A Pending JP2006208486A (ja) 2005-01-25 2005-01-25 音声入力装置

Country Status (1)

Country Link
JP (1) JP2006208486A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008083667A (ja) * 2006-09-26 2008-04-10 Storz Endoskop Produktions Gmbh 音声駆動式のコントロールアプリケーションにおいて危険を軽減するためのシステムおよび方法
JP2010072081A (ja) * 2008-09-16 2010-04-02 Denso Corp 音声認識用辞書作成装置
JP2010169861A (ja) * 2009-01-22 2010-08-05 Mitsubishi Heavy Ind Ltd ロボットおよび音声認識装置ならびにプログラム
JP2013257598A (ja) * 2013-09-30 2013-12-26 Mitsubishi Heavy Ind Ltd ロボットおよび音声認識装置ならびにプログラム
CN106782552A (zh) * 2016-12-06 2017-05-31 深圳Tcl数字技术有限公司 尾音识别方法及语音遥控器
CN111429911A (zh) * 2020-03-11 2020-07-17 云知声智能科技股份有限公司 一种降低噪音场景下语音识别引擎功耗的方法及装置
WO2022071044A1 (ja) * 2020-10-01 2022-04-07 ソニーグループ株式会社 情報処理装置及び情報処理方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008083667A (ja) * 2006-09-26 2008-04-10 Storz Endoskop Produktions Gmbh 音声駆動式のコントロールアプリケーションにおいて危険を軽減するためのシステムおよび方法
JP2010072081A (ja) * 2008-09-16 2010-04-02 Denso Corp 音声認識用辞書作成装置
JP2010169861A (ja) * 2009-01-22 2010-08-05 Mitsubishi Heavy Ind Ltd ロボットおよび音声認識装置ならびにプログラム
JP2013257598A (ja) * 2013-09-30 2013-12-26 Mitsubishi Heavy Ind Ltd ロボットおよび音声認識装置ならびにプログラム
CN106782552A (zh) * 2016-12-06 2017-05-31 深圳Tcl数字技术有限公司 尾音识别方法及语音遥控器
CN111429911A (zh) * 2020-03-11 2020-07-17 云知声智能科技股份有限公司 一种降低噪音场景下语音识别引擎功耗的方法及装置
WO2022071044A1 (ja) * 2020-10-01 2022-04-07 ソニーグループ株式会社 情報処理装置及び情報処理方法

Similar Documents

Publication Publication Date Title
US9754586B2 (en) Methods and apparatus for use in speech recognition systems for identifying unknown words and for adding previously unknown words to vocabularies and grammars of speech recognition systems
US7848926B2 (en) System, method, and program for correcting misrecognized spoken words by selecting appropriate correction word from one or more competitive words
JP4446312B2 (ja) 音声認識中に可変数の代替ワードを表示する方法及びシステム
US8185400B1 (en) System and method for isolating and processing common dialog cues
US6591236B2 (en) Method and system for determining available and alternative speech commands
JP2006208486A (ja) 音声入力装置
EP3654329B1 (en) In-vehicle device and speech recognition method
JPWO2017042906A1 (ja) 車載用音声認識装置および車載機器
JP5263875B2 (ja) 発話入力の音声認識のためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
JP2009025538A (ja) 音声対話装置
JP2006251545A (ja) 音声対話システム及びコンピュータプログラム
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP2008033198A (ja) 音声対話システム、音声対話方法、音声入力装置、プログラム
JP2004333543A (ja) 音声対話システム及び音声対話方法
JP2018116206A (ja) 音声認識装置、音声認識方法及び音声認識システム
JP2007101892A (ja) 音声認識装置
JP4951422B2 (ja) 音声認識装置、および音声認識方法
JP2006337942A (ja) 音声対話装置及び割り込み発話制御方法
JP4736423B2 (ja) 音声認識装置および音声認識方法
WO2019142447A1 (ja) 情報処理装置および情報処理方法
JP2006172110A (ja) 応答データ出力装置、応答データ出力方法およびプログラム
JP2007183516A (ja) 音声対話装置及び音声認識方法
JP2019184631A (ja) 音声認識システム及びコンピュータプログラム
JP2006023444A (ja) 音声対話装置
JP2006171077A (ja) 音声認識装置および音声認識方法