JP2009210703A - Speech recognition device - Google Patents
Speech recognition device Download PDFInfo
- Publication number
- JP2009210703A JP2009210703A JP2008051975A JP2008051975A JP2009210703A JP 2009210703 A JP2009210703 A JP 2009210703A JP 2008051975 A JP2008051975 A JP 2008051975A JP 2008051975 A JP2008051975 A JP 2008051975A JP 2009210703 A JP2009210703 A JP 2009210703A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- voice
- speech
- character
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
Abstract
Description
本発明は、音声認識装置に係り、特に、発話音声に対する音声認識を行う音声認識装置に関する。 The present invention relates to a speech recognition apparatus, and more particularly to a speech recognition apparatus that performs speech recognition on uttered speech.
一般に、音声認識は、人の発話音声をコンピュータによって解析し、発話内容を文字データとして取り出すことによって、発話音声が表す言語を認識する処理として知られている。 In general, speech recognition is known as a process of recognizing a language represented by a speech by analyzing a speech of a person using a computer and extracting the content of the speech as character data.
音声認識の方法としては、例えば、大量の発話を記録した学習用データから音声の特徴を学習し、入力された発話音声とそれらの特徴と照らし合わせながら、最も尤もらしい言語系列を認識結果として出力する手法等が知られている。 As a speech recognition method, for example, the features of speech are learned from learning data in which a large amount of utterances are recorded, and the most likely language sequence is output as a recognition result while comparing the input speech with those features. There are known methods to do this.
このような音声認識を行う音声認識装置は、キーボード、リモコンまたはタッチパネル等に代わるコマンド入力手段として注目を集めており、パソコンや車載器等、その利用分野は多岐にわたっている。 A voice recognition apparatus that performs such voice recognition has been attracting attention as a command input means that replaces a keyboard, a remote controller, a touch panel, or the like, and has various fields of use such as a personal computer and an in-vehicle device.
しかしながら、現状における音声認識装置は、必ずしも発話音声に対する音声認識を正確に行うことができず、誤認識が生じる場合があった。 However, the current voice recognition apparatus cannot always perform voice recognition with respect to the uttered voice accurately, and erroneous recognition may occur.
そして、このような誤認識が複数回生じると、ユーザは、不快感が募ることになり、さらに、誤認識が複数回生じた上で最終的に音声認識に失敗する場合には、不快感は非常に大きなものとなる。 And if such misrecognition occurs multiple times, the user will feel uncomfortable, and further, if misrecognition occurs multiple times and ultimately speech recognition fails, discomfort will be It will be very big.
図3は、このような誤認識が生じた場合における現状の音声認識装置の動作例として、車載用ナビゲーション装置に適用される音声認識装置の動作例を示したものである。 FIG. 3 shows an operation example of the voice recognition device applied to the in-vehicle navigation device as an example of the operation of the current voice recognition device when such erroneous recognition occurs.
図3に示すように、まず、ステップ1(ST1)においては、音声認識装置側の発話によって、ユーザに対して住所の音声入力を促す。 As shown in FIG. 3, first, in step 1 (ST1), the user is prompted to input an address voice by utterance on the voice recognition device side.
次いで、ステップ2(ST2)においては、ユーザの発話により、音声認識装置に対して発話音声「トウキョウトシナガワク」を入力する。 Next, in step 2 (ST2), an utterance voice “Tokyo Shinagawa” is input to the voice recognition device by the user's utterance.
次いで、ステップ3(ST3)においては、音声認識装置側の発話によって、ステップ2(ST2)において入力された発話音声に対する音声認識の認識結果「ドウキョウトタイトウク」を出力した後に、「ピー」という音を発した上で次のコマンドの入力を促す。 Next, in Step 3 (ST3), after the speech recognition recognition result “Dark Tight” is output with respect to the uttered voice input in Step 2 (ST2) by utterance on the voice recognition device side, it is called “Pie”. Prompt for the next command after making a sound.
しかしながら、このステップ3(ST3)における認識結果は誤認識であるため、ユーザは、誤認識であることを音声認識装置に入力するために、続くステップ4(ST4)において、ボタン操作によって「戻る」のコマンドを選択する。 However, since the recognition result in step 3 (ST3) is misrecognition, the user “returns” by button operation in the subsequent step 4 (ST4) in order to input the recognition to the speech recognition apparatus. Select the command.
次いで、ステップ5(ST5)においては、音声認識装置側の発話によって、再びユーザに対して住所の音声入力を促す。 Next, in step 5 (ST5), the user is prompted to input the address again by utterance on the voice recognition device side.
次いで、ステップ6(ST6)においては、ユーザの発話により、音声認識装置に対して発話音声「トウキョウトシナガワク」を再び入力する。 Next, in step 6 (ST6), the speech “Tokyo Shinagawa” is input again to the speech recognition apparatus by the user's speech.
次いで、ステップ7(ST7)においては、音声認識装置側の発話によって、ステップ6(ST6)において入力された発話音声に対する音声認識の認識結果「ドウキョウトチュウオウク」を出力した後に、「ピー」という音を発した上で次のコマンドの入力を促す。 Next, in Step 7 (ST7), after the speech recognition recognition result “Dokutokuoku” for the uttered speech input in Step 6 (ST6) is output by the speech recognition apparatus side utterance, it is referred to as “Pie”. Prompt for the next command after making a sound.
しかしながら、このステップ7(ST7)における認識結果はまたしても誤認識であるため、ユーザは、誤認識であることを音声認識装置に入力するために、続くステップ8(ST8)において、「戻る」のコマンドを再び選択する。このとき、2度目の誤認識によってユーザは不快感が生じて苛々するであろう。 However, since the recognition result in step 7 (ST7) is erroneously recognized again, the user returns to “return” in subsequent step 8 (ST8) in order to input the recognition to the speech recognition apparatus. ”Command again. At this time, the second misrecognition causes the user to feel uncomfortable and frustrated.
次いで、ステップ9(ST9)においては、音声認識装置側の発話によって、再びユーザに対して住所の音声入力を促す。 Next, in step 9 (ST9), the user is prompted to input the address again by utterance on the voice recognition device side.
次いで、ステップ10(ST10)においては、ユーザの発話により、音声認識装置に対して発話音声「トウキョウトシナガワク」を再び入力する。 Next, in step 10 (ST10), the speech “Tokyo Shinagawa” is input again to the speech recognition apparatus by the user's speech.
次いで、ステップ11(ST11)においては、音声認識装置側の発話によって、ステップ10(ST10)において入力された発話音声に対する音声認識の認識結果「ドウキョウトシンジュクク」を出力した後に、「ピー」という音を発した上で次のコマンドの入力を促す。 Next, in step 11 (ST11), after the speech recognition recognition result “Dark Shinjuku” for the uttered speech input in step 10 (ST10) is output by the speech on the speech recognition apparatus side, it is called “Pie”. Prompt for the next command after making a sound.
しかしながら、このステップ11(ST11)における認識結果もまたしても誤認識であるため、ユーザは、誤認識であることを音声認識装置に入力するために、続くステップ12(ST12)において、「戻る」のコマンドを再び選択する。このとき、3度目の誤認識によってユーザの不快感はさらに大きくなるであろう。 However, since the recognition result in step 11 (ST11) is also erroneous recognition, the user returns to “Return” in subsequent step 12 (ST12) in order to input the recognition to the speech recognition apparatus. ”Command again. At this time, the user's discomfort will be further increased by the third misrecognition.
次いで、ステップ13(ST13)においては、音声認識装置側の発話により、音声認識に失敗した旨が通知されて、コマンドの再入力の要求はなされなくなる。これにより、ユーザの不快感は極めて大きなものになるであろう。 Next, in step 13 (ST13), the speech recognition apparatus side is notified that the speech recognition has failed, and the command re-input is not requested. Thereby, the user's discomfort will be extremely large.
このように、従来から、音声認識装置においては、誤認識が生じる度に、ユーザに不快感を与えるばかりでなく、このような不快感を与えたままユーザに発話音声の再入力を繰り返し強いることになり、操作上のストレスも与えてしまうといった問題が発生していた。 Thus, conventionally, in a speech recognition device, every time misrecognition occurs, not only does the user feel uncomfortable, but the user is repeatedly forced to re-input the spoken voice while giving such discomfort. As a result, there has been a problem of giving stress on operation.
そこで、本発明は、このような問題点に鑑みなされたものであり、誤認識にともなう不快感および操作上のストレスを軽減することができる音声認識装置を提供することを目的とするものである。 Therefore, the present invention has been made in view of such problems, and an object of the present invention is to provide a voice recognition device that can reduce discomfort and operational stress associated with erroneous recognition. .
前述した目的を達成するため、本発明に係る音声認識装置は、マイクを介して入力された発話音声が表す言語を認識する音声認識を行う音声認識手段と、この音声認識手段の認識結果を表す音声を、スピーカを介して出力する認識結果出力手段と、この認識結果出力手段によって出力された音声が表す前記認識結果が誤認識である旨の入力が可能とされた誤認識入力手段と、この誤認識入力手段による前記誤認識である旨の入力に応答して、前記発話音声の再入力を要求するための音声である再入力要求音声を、前記スピーカを介して出力する再入力要求出力手段と、前記誤認識が所定回数連続した場合に、前記音声認識に失敗したことを通知するための音声である失敗通知音声を、前記スピーカを介して出力する認識失敗通知手段とを備えた音声認識装置であって、前記再入力要求出力手段は、謝罪表現が含まれた前記再入力要求音声を出力するように形成されているとともに、前記誤認識の回数の増加にともなって、前記再入力要求音声に含まれる謝罪表現の丁寧さの度合いを高めるように形成されていることを特徴としている。 In order to achieve the above-mentioned object, a speech recognition apparatus according to the present invention represents speech recognition means for performing speech recognition for recognizing a language represented by a speech input through a microphone, and a recognition result of the speech recognition means. A recognition result output means for outputting a sound via a speaker, a misrecognition input means capable of inputting that the recognition result represented by the sound output by the recognition result output means is a false recognition, and Re-input request output means for outputting a re-input request voice, which is a voice for requesting re-input of the utterance voice, in response to an input indicating that the erroneous recognition is made by the erroneous recognition input means. And a recognition failure notification means for outputting a failure notification sound, which is a sound for notifying that the voice recognition has failed, when the erroneous recognition continues for a predetermined number of times via the speaker. In the voice recognition device, the re-input request output means is configured to output the re-input request voice including an apology expression, and the re-input request output means is configured to increase the number of times of erroneous recognition. It is characterized in that it is formed so as to increase the degree of politeness of the apology expression included in the input request voice.
そして、このような構成によれば、再入力要求出力手段により、音声認識の誤認識の回数の増加にともなって、再入力要求音声に含まれる謝罪表現の丁寧さの度合を高めることができるので、誤認識にともなう不快感およびストレスを軽減することができる。 According to such a configuration, the re-input request output means can increase the degree of politeness of the apology expression included in the re-input request voice as the number of erroneous recognitions of voice recognition increases. , Discomfort and stress associated with misrecognition can be reduced.
なお、本明細書において、不快感およびストレスの軽減は、これら不快感およびストレスの発生を未然に抑制するといった意味での軽減の場合のみならず、不快感およびストレスが一旦発生するが直ちに緩和もしくは解消されるといった意味での軽減の場合も含むものとする。換言すれば、音声認識のための一連のユーザ操作における不快感およびストレスの蓄積が、従来よりも軽減されるということである。 In this specification, discomfort and stress are not only reduced in the sense of suppressing the occurrence of discomfort and stress, but also once discomfort and stress are generated, Including the case of mitigation in the sense of being eliminated. In other words, discomfort and stress accumulation in a series of user operations for voice recognition are reduced as compared with the conventional case.
また、前記認識結果出力手段は、前記誤認識の回数の増加にともなって、前記認識結果を表す音声を出力する際の表現の丁寧さの度合を高めるように形成されていることが好ましい。 The recognition result output means is preferably formed so as to increase the degree of politeness of the expression when outputting the voice representing the recognition result as the number of erroneous recognitions increases.
そして、このような構成によれば、認識結果出力手段により、誤認識の回数の増加にともなって、前記認識結果を表す音声を出力する際の表現の丁寧さの度合を高めるようにすることができるので、誤認識にともなう不快感およびストレスをさらに有効に軽減することができる。 According to such a configuration, the recognition result output means increases the degree of politeness of the expression when outputting the speech representing the recognition result as the number of times of erroneous recognition increases. Therefore, discomfort and stress associated with misrecognition can be reduced more effectively.
さらに、前記認識失敗通知手段は、謝罪表現が含まれた前記失敗通知音声を出力するように形成されていることが好ましい。 Furthermore, it is preferable that the recognition failure notification means is configured to output the failure notification sound including an apology expression.
そして、このような構成によれば、認識失敗通知手段により、謝罪表現が含まれた失敗通知音声を出力することができるので、音声認識の失敗にともなう不快感を軽減することができる。 According to such a configuration, since the failure notification voice including the apology expression can be output by the recognition failure notification means, it is possible to reduce discomfort associated with the voice recognition failure.
さらにまた、音声認識装置本体の動作状態に応じて擬人化されたキャラクタの画像を表示部に表示するキャラクタ表示処理手段を備え、前記キャラクタ表示処理手段は、前記再入力要求音声の出力の際に、前記キャラクタの画像として、謝罪姿勢を呈するようなキャラクタの画像を表示するように形成されているとともに、前記誤認識の回数の増加にともなって、当該キャラクタの画像が呈する謝罪姿勢の丁寧さの度合を高めるように形成されていることが好ましい。 Furthermore, the image display device further comprises character display processing means for displaying an image of the personified character according to the operation state of the voice recognition apparatus main body on the display unit, and the character display processing means is configured to output the re-input request voice. The image of the character is displayed so as to display an apology posture as the character image, and the politeness of the apology posture displayed by the image of the character as the number of misrecognitions increases. It is preferably formed so as to increase the degree.
そして、このような構成によれば、キャラクタ表示処理手段により、誤認識の回数の増加にともなって、再入力要求音声の出力の際におけるキャラクタの画像が呈する謝罪姿勢の丁寧さの度合を高めるようにすることができるので、そのようなキャラクタの画像による癒し効果も手伝って、誤認識にともなう不快感およびストレスをさらに有効に軽減することができる。 According to such a configuration, the character display processing means increases the degree of politeness of the apology posture exhibited by the character image when outputting the re-input request voice as the number of erroneous recognition increases. Therefore, the healing effect by the image of such a character can also be helped, and the discomfort and stress accompanying misrecognition can be reduced more effectively.
また、前記認識結果出力手段は、前記誤認識の回数の増加にともなって、前記認識結果を表す音声を出力する際の表現の丁寧さの度合を高めるように形成され、前記キャラクタ表示処理手段は、前記認識結果を表す音声の出力の際に、前記キャラクタの画像として、前記誤認識の回数の増加にともなって、当該キャラクタの画像が呈する丁重姿勢の度合いが高まるようなキャラクタの画像を表示するように形成されていることが好ましい。 The recognition result output means is formed so as to increase the degree of politeness of the expression when outputting the voice representing the recognition result as the number of erroneous recognition increases, and the character display processing means When outputting sound representing the recognition result, an image of the character is displayed as the character image such that the degree of polite posture exhibited by the character image increases as the number of erroneous recognition increases. It is preferable to be formed as described above.
そして、このような構成によれば、キャラクタ表示処理手段により、誤認識の回数の増加にともなって、キャラクタの画像が呈する丁重姿勢の度合を高めることができるので、誤認識にともなう不快感およびストレスをより有効に軽減することができる。 According to such a configuration, the character display processing means can increase the degree of polite posture exhibited by the character image as the number of misrecognitions increases, so discomfort and stress associated with misrecognition. Can be reduced more effectively.
さらに、前記認識失敗通知手段は、謝罪表現が含まれた前記失敗通知音声を出力するように形成され、前記キャラクタ表示処理手段は、前記失敗通知音声の出力の際に、前記キャラクタの画像として、謝罪姿勢を呈するようなキャラクタの画像を表示するように形成されていることが好ましい。 Further, the recognition failure notification means is configured to output the failure notification sound including an apology expression, and the character display processing means is configured to output the failure notification sound as an image of the character. It is preferable to display an image of a character that exhibits an apology posture.
そして、このような構成によれば、キャラクタ表示処理手段により、失敗通知音声の出力の際に謝罪姿勢を呈するキャラクタの画像を表示することがきるので、音声認識の失敗にともなう不快感をさらに有効に軽減することができる。 According to such a configuration, the character display processing means can display an image of the character that shows an apology when outputting the failure notification voice, so that the discomfort associated with the voice recognition failure is further effective. Can be reduced.
さらにまた、本発明は、車載器に適用されることが好ましい。 Furthermore, the present invention is preferably applied to an on-vehicle device.
そして、このような構成によれば、車載器に適用する場合においても、誤認識にともなう不快感およびストレスの軽減を図ることができるので、ひいては、運転の安全性および快適性を向上させることができる。 According to such a configuration, even when applied to the vehicle-mounted device, discomfort and stress associated with misrecognition can be reduced, so that driving safety and comfort can be improved. it can.
本発明によれば、誤認識にともなう不快感および操作上のストレスを軽減することができる。 According to the present invention, discomfort and operational stress associated with misrecognition can be reduced.
以下、本発明に係る音声認識装置の実施形態について、図1および図2を参照して説明する。 Hereinafter, embodiments of a speech recognition apparatus according to the present invention will be described with reference to FIGS. 1 and 2.
図1は、本実施形態における音声認識装置1を示したものであり、この音声認識装置1は、マイク2および発話ボタン3を有している。
FIG. 1 shows a
ユーザは、発話ボタン3を押し下げた後マイク2に向かって発話することによって、発話音声をマイク2を介して音声認識装置1の内部に入力することが可能とされている。
The user can input the uttered voice into the
また、本実施形態における音声認識装置1は、音声認識手段としての音声認識部5を有しており、この音声認識部5には、マイク2および発話ボタン3がそれぞれ接続されている。
The
音声認識部5は、発話ボタン3が押し下げられると、音声入力待ち状態となり、マイク2を介してユーザの発話音声が音声認識部5に入力されるようになっている。
When the
そして、音声認識部5は、入力された発話音声(音声データ)に対して、発話音声が表す言語を認識する音声認識を行うようになっている。この音声認識は、例えば、認識対象言語の文字列とその音声パターンとを対応付けた音響モデルを、音声辞書データベースにあらかじめ登録しておき、入力された発話音声から算出された特徴量と、音響モデルの特徴量とを比較して、類似度が最も高い音声パターンを検索し、その音声パターンに対応する文字列を発話音声が表す文字列であると認識することによって行うようにしてもよい。
The
さらに、本実施形態における音声認識装置1は、認識結果出力手段としての認識結果出力部6を有しており、この認識結果出力部6には、音声認識部5が接続されている。また、認識結果出力部6には、音声合成部7を介してスピーカ8が接続されている。音声合成部7は、例えば、Text to Speech(TTS)エンジンとされており、テキストベースの情報を入力してオーディオに変換して出力し、音声読み上げを行うようになっている。
Furthermore, the
認識結果出力部6は、音声認識部5から、発話音声に対する音声認識の認識結果を取得するようになっている。そして、認識結果出力部6は取得された認識結果に対応する音声データ(以下、認識結果音声データと称する)を生成し、生成された認識結果音声データを、例えばTTSエンジンを使って1文字分ずつ音声合成部7に出力するようになっている。音声合成部7は、認識結果出力部6から出力された認識結果音声データを文字列(単語)として例えばTTSエンジンに入力して、これをスピーカ8を介して音声出力するようになっている。
The recognition
このようにして、認識結果出力部6により、音声認識部5の認識結果を表す音声が、音声合成部7およびスピーカ8を介して音声出力(トークバック)されるようになっている。
In this way, the recognition
そして、ユーザは、この認識結果出力部6によって音声出力された音声を聴取することによって、この音声が表す言語が誤認識であるか否かを判断することができるようになっている。
The user can determine whether or not the language represented by the sound is erroneous recognition by listening to the sound output by the recognition
さらにまた、本実施形態における音声認識装置1は、コマンド入力要求出力部10を有しており、このコマンド入力要求出力部10には、発話ボタン3、認識結果出力部6および音声合成部7がそれぞれ接続されている。
Furthermore, the
コマンド入力要求出力部10は、音声認識装置1の動作状態に応じて、ユーザにコマンドの入力を要求するための音声であるコマンド入力要求音声の音声データ(以下、コマンド入力要求音声データと称する)を生成し、生成されたコマンド入力要求音声データを音声合成部7に出力するようになっている。音声合成部7は、コマンド入力要求出力部10から出力されたコマンド入力要求音声データに対応するコマンド入力要求音声を、スピーカ8を介して出力するようになっている。
The command input
このようにして、コマンド入力要求出力部10により、コマンド入力要求音声が、音声合成部7およびスピーカ8を介して音声出力されるようになっている。
In this way, the command input
本実施形態において、コマンド入力要求出力部10は、認識結果出力部6による認識結果の出力の際に、現段階における最新の入力済みコマンド(すなわち、当該認識結果に対応する発話音声)の次のコマンド(例えば、発話音声)の入力を要求する音声を出力するようにしてもよい。
In the present embodiment, when the recognition
また、本実施形態における音声認識装置1は、誤認識入力手段としてのバックボタン11を有している。ユーザは、認識結果出力部6によって出力された認識結果に対して、バックボタン11を押し下げることによって、認識結果出力部6によって出力された音声が表す認識結果が誤認識である旨の入力(以下、誤認識入力と称する)が可能とされている。
Moreover, the
さらに、本実施形態において、コマンド入力要求出力部10は、再入力要求出力手段としての再入力要求出力部12を有しており、この再入力要求出力部12には、バックボタン11が接続されている。
Further, in this embodiment, the command input
この再入力要求出力部12は、バックボタン11による誤認識入力の入力結果を取得し、取得された入力結果に応答して、誤認識となった発話音声の再入力を要求する音声である再入力要求音声の音声データ(以下、再入力要求音声データと称する)を生成するようになっている。なお、本実施形態において、再入力要求音声は、コマンド入力要求音声の一態様とされ、再入力要求音声データは、コマンド入力要求音声データの一態様とされている。そして、再入力要求出力部12は、生成された再入力要求音声データを音声合成部7に出力するようになっている。音声合成部7は、再入力要求出力部12から出力された再入力要求音声データに対応する再入力要求音声を、スピーカ8を介して出力するようになっている。このようにして、再入力要求出力部12により、誤認識入力に応答して、音声合成部7およびスピーカ8を介した再入力要求音声の出力を行うことができるようになっている。
The re-input
さらにまた、本実施形態における音声認識装置1は、誤認識回数計測部14を有しており、この誤認識回数計測部14には、バックボタン11および再入力要求出力部12がそれぞれ接続されている。この誤認識回数計測部14は、バックボタン11からの誤認識入力の入力回数に基づいて、誤認識の発生回数を計測するようになっている。
Furthermore, the
また、本実施形態における音声認識装置1は、認識失敗通知手段としての認識失敗通知部15を有しており、この認識失敗通知部15には、誤認識回数計測部14および音声合成部7がそれぞれ接続されている。
In addition, the
この認識失敗通知部15は、誤認識回数計測部14の計測結果を取得し、取得された測定結果に基づいて、誤認識が所定回数連続した場合に、音声認識に失敗したことを通知する音声である失敗通知音声の音声データ(以下、失敗通知音声データと称する)を生成し、生成された失敗通知音声データを音声合成部7に出力するようになっている。音声合成部7は、認識失敗通知部15から出力された音声データに対応する失敗通知音声を、スピーカ8を介して出力するようになっている。このようにして、認識失敗通知部15により、音声合成部7およびスピーカ8を介して失敗通知音声を出力することができるようになっている。
This recognition failure notification unit 15 acquires the measurement result of the erroneous recognition frequency measurement unit 14 and, based on the acquired measurement result, the voice for notifying that the speech recognition has failed when the erroneous recognition continues a predetermined number of times. The failure notification voice data (hereinafter referred to as failure notification voice data) is generated, and the generated failure notification voice data is output to the voice synthesizer 7. The voice synthesizing unit 7 outputs failure notification voice corresponding to the voice data output from the recognition failure notification unit 15 via the
さらに、本実施形態における音声認識装置1は、キャラクタ表示処理手段としてのキャラクタ描画部16を有しており、このキャラクタ描画部16には、認識結果出力部6、コマンド入力要求出力部10(再入力要求出力部12を含む)、および、認識失敗通知部15がそれぞれ接続されている。また、キャラクタ描画部16には、表示処理部18を介して表示部としてのディスプレイ19が接続されている。
Furthermore, the
キャラクタ描画部16は、音声認識装置1の動作状態に応じて、擬人化されたキャラクタの画像の描画データを生成し、生成された描画データを表示処理部18に出力するようになっている。そして、表示処理部18は、キャラクタ描画部16から出力された描画データに対応するキャラクタの画像を、ディスプレイ19に表示するようになっている。このようにして、キャラクタ描画部16により、表示処理部18を介してディスプレイ19にキャラクタの画像を表示することができるようになっている。
The
より具体的には、本実施形態において、キャラクタ描画部16は、キャラクタの画像として、認識結果出力部6、コマンド入力要求出力部10、再入力要求出力部12、および、認識失敗通知部15のそれぞれの音声出力による音声認識装置1側の発話動作の際に、発話動作に適合した表示状態を呈するキャラクタの画像を表示するようになっている。
More specifically, in the present embodiment, the
なお、このようなキャラクタの画像としては、例えば、人物や動物等を模したキャラクタの画像で、音声認識装置1側の発話動作に連動してキャラクタの表情(口等)や身振り手振り等の表示状態が発話動作に適合した状態(動き)を示す画像を表示すればよい。
In addition, as an image of such a character, for example, an image of a character imitating a person, an animal, or the like, and display of the character's facial expression (mouth, etc.), gesture gesture, etc. in conjunction with the speech operation on the
以上のような基本的な構成を備えた上で、本実施形態にける音声認識装置1は、再入力要求出力部12が、謝罪表現が含まれた再入力要求音声を出力するように形成されているとともに、誤認識回数計測部14によって測定される誤認識の回数の増加にともなって、再入力要求音声に含まれる謝罪表現の丁寧さの度合を高めるようになっている。
The
つまり、本実施形態においては、発話音声に対する誤認識の回数が増加するほど、誤認識入力に応答して、より丁寧な言葉遣いによる謝罪表現が含まれた再入力要求音声によって、発話音声の再入力が促されるようになっている。 That is, in this embodiment, as the number of misrecognitions for uttered speech increases, in response to misrecognition input, a re-input request speech including an apology expression with more polite language is used to regenerate the utterance speech. You are prompted for input.
具体的な例としては、再入力要求出力部12は、住所を音声認識する場合における1回目の誤認識に対しては、「すみません、住所をお話下さい。」といった再入力要求音声を出力し、2回目の誤認識に対しては、「申し訳ございません。もう一度住所をお話下さい。」といった再入力要求音声を出力するようにしてもよい。
As a specific example, the re-input
また、再入力要求出力部12は、謝罪表現の丁寧さの度合が異なる複数の再入力要求音声のパターンを、誤認識の回数と対応関係を有した状態としてデータベース化しておき、誤認識回数計測部14から取得された計測結果に対応するパターンに該当する再生入力要求音声を出力するようにしてもよい。
Further, the re-input
ここで、音声認識の誤認識が繰り返されれば、ユーザの不快感は徐々に高まっていくことが多い。しかし、誤認識が生じる度ごとに謝罪の言葉をかけられ、また、謝罪の言葉が誤認識の回数の増加にともなってより丁寧なものになれば、ユーザの不快感は軽減されるであろう。また、不快感が軽減された状態で発話音声の再入力を行えば、再入力の際のストレスも軽減されるであろう。 Here, if misrecognition of voice recognition is repeated, user discomfort often increases gradually. However, if the misrecognition occurs every time an apology is made and the apology becomes more polite as the number of misrecognitions increases, the user's discomfort will be reduced. . In addition, if the speech voice is re-input in a state where the discomfort is reduced, the stress at the time of re-input will also be reduced.
したがって、本実施形態によれば、誤認識が繰り返される場合においても、誤認識の回数の増加にともなってより丁寧な謝罪表現を用いた再入力要求を行うことができるので、誤認識によるユーザの不快感および発話音声の再入力にともなうユーザのストレスを軽減することができる。 Therefore, according to the present embodiment, even when misrecognition is repeated, a re-input request using a more polite apology can be made as the number of misrecognitions increases. The user's stress associated with discomfort and re-input of the spoken voice can be reduced.
上記構成に加えて、さらに、本実施形態においては、認識失敗通知部15が、謝罪表現が含まれた失敗通知音声を出力するようになっている。 In addition to the above configuration, in the present embodiment, the recognition failure notification unit 15 outputs a failure notification voice including an apology expression.
具体的な例としては、認識失敗通知部15は、「大変申し訳ございません。音声認識に失敗しました。」といった内容の失敗通知音声を出力するようにしてもよい。 As a specific example, the recognition failure notification unit 15 may output a failure notification sound with a content such as “I am very sorry. Speech recognition failed.”.
このような構成によれば、誤認識が複数回繰り返された上で最終的に音声認識に失敗した場合においても、謝罪表現が含まれた失敗通知音声を出力することができるので、音声認識の失敗にともなう不快感を軽減することができる。なお、この失敗通知音声に含まれる謝罪表現は、再入力要求音声に含まれる謝罪表現よりも丁寧であることが好ましい。 According to such a configuration, even when erroneous recognition is repeated a plurality of times and finally speech recognition fails, a failure notification sound including an apology expression can be output. Discomfort associated with failure can be reduced. Note that the apology expression included in the failure notification voice is preferably more polite than the apology expression included in the re-input request voice.
上記構成に加えて、さらに、認識結果出力部6が、誤認識回数計測部14によって計測される誤認識の回数の増加にともなって、認識結果を表す音声を出力する際の表現の丁寧さの度合を高めるようにしてもよい。
In addition to the above configuration, the recognition
具体的な例としては、認識結果出力部6は、第1回目の認識結果の出力の際には、「ドウキョウトタイトウク」といった誤認識の音声を出力し、これに続く第2回目の認識結果の出力の際には、「ドウキョウトチュウオウクでよろしいでしょうか。」といった丁寧な表現による認識結果の出力を行うようにしてもよい。
As a specific example, when the first recognition result is output, the recognition
このようにすれば、誤認識の回数の増加にともなってより丁重な言葉遣いで再認識の結果を出力することができるので、誤認識によるユーザの不快感および発話音声の再入力にともなうユーザのストレスをさらに有効に軽減することができる。 In this way, the result of re-recognition can be output with more polite words as the number of misrecognitions increases, so the user's discomfort due to misrecognition and the re-input of the utterance voice Stress can be reduced more effectively.
上記構成に加えて、さらに、本実施形態においては、キャラクタ描画部16が、再入力要求出力部12による再入力要求音声の出力の際に、謝罪姿勢を呈するようなキャラクタの画像を表示するように形成されているとともに、誤認識の回数の増加にともなって、キャラクタの画像が呈する謝罪姿勢の丁寧さの度合を高めるようになっている。
In addition to the above configuration, in the present embodiment, the
具体的な例としては、キャラクタ描画部16は、誤認識の回数の増加にともなって、より深々と頭を下げるようなキャラクタの画像を表示するようにしてもよい。
As a specific example, the
また、キャラクタ描画部16は、謝罪姿勢の丁寧さの度合が異なる複数のキャラクタパターンを、誤認識の回数と対応関係を有した状態としてデータベース化しておき、誤認識回数計測部14から取得された計測結果に対応するパターンに該当するキャラクタを表示するようにしてもよい。
Further, the
このような構成によれば、キャラクタが呈する謝罪姿勢も手伝って、誤認識にともなう不快感およびストレスをさらに有効に軽減することができる。 According to such a configuration, it is possible to more effectively reduce discomfort and stress associated with misrecognition by helping the apology posture presented by the character.
上記構成に加えて、さらに、本実施形態においては、キャラクタ描画部16が、認識失敗通知部15による失敗通知音声の出力の際にも、謝罪姿勢を呈するキャラクタを表示するようになっている。
In addition to the above configuration, in the present embodiment, the
具体的な例としては、キャラクタ描画部16は、認識失敗通知部15が失敗通知音声を出力する際に、誤認識の場合よりもより深々と頭を下げるか、もしくは、土下座をするようなキャラクタを表示するようにしてもよい。
As a specific example, when the recognition failure notification unit 15 outputs the failure notification sound, the
そして、このような構成によれば、音声認識の失敗にともなう不快感をさらに有効に軽減することができる。 And according to such a structure, the discomfort accompanying the failure of speech recognition can be further effectively reduced.
上記構成に加えて、さらに、前述のように、誤認識の回数の増加にともなって認識結果を表す音声を出力する際の表現の丁寧さの度合を高めるようにする場合には、キャラクタ描画部16が、キャラクタの画像として、誤認識の回数の増加にともなって、当該キャラクタの画像が呈する丁重姿勢の度合いが高まるようなキャラクタ画像を表示するようにしてもよい。
In addition to the above-described configuration, as described above, in the case where the degree of politeness of the expression when outputting the voice representing the recognition result as the number of erroneous recognition increases, the
なお、丁重姿勢の具体的な例としては、例えば、お辞儀のようなかしこまった状態であたかもユーザの表情を恐る恐る窺うような姿勢を挙げることができる。 As a specific example of the polite posture, for example, it is possible to include a posture in which the user's facial expression is afraid as if it is in a state of bowing.
このようにすれば、認識結果を表す音声を出力する際の表現の丁寧さの度合が高まることにともなって、表示されるキャラクタが呈する丁重姿勢の度合を高めることができるので、誤認識にともなう不快感およびストレスをより有効に軽減することができる。 In this way, the degree of politeness of the displayed character can be increased as the degree of politeness of the expression when outputting the voice representing the recognition result is increased, resulting in erroneous recognition. Discomfort and stress can be reduced more effectively.
また、本実施形態における音声認識装置1は、車載器に適用されるようにしてもよい。具体的には、本実施形態における音声認識装置1は、車載器としての車載用ナビゲーション装置における目的地や経由地の設定の際における住所の音声入力等に適用することができる。また、本実施形態における音声認識装置1は、車載器としての車載用のオーディオ装置、DVD再生装置、ラジオおよびテレビ等における音声入力による再生対象(楽曲、映像作品、番組)の選択にも適用することができる。
In addition, the
このように、本実施形態における音声認識装置1を車載器に適用すれば、誤認識にともなう不快感およびストレスの軽減を図ることによって、運転の安全性および快適性の向上に繋がることになる。
As described above, when the
次に、本実施形態の作用として、音声認識装置1の動作例について説明する。
Next, an operation example of the
図2は、音声認識装置1の動作例として、音声認識装置1を車載用ナビゲーション装置に適用した場合における目的地や経由地の設定の際の住所の入力を行う場合における動作例を示したものである。
FIG. 2 shows an example of the operation of the
この動作例においては、図2に示すように、まず、ステップ21(ST21)において、コマンド入力要求出力部10により、ユーザに対して住所の音声入力を促す発話動作として、「住所をお話下さい」といった音声出力をスピーカ8を介して行う。なお、このステップ21(ST21)の発話動作は、車載用ナビゲーション装置(図示せず)に対する住所の音声入力に移行するためのユーザ操作がなされたことを待って行われるようになっている。
In this operation example, as shown in FIG. 2, first, in step 21 (ST21), the command input
また、このステップ21(ST21)においては、キャラクタ描画部16により、ディスプレイ19に、画面アイコンとしてキャラクタの画像を表示するとともに、このキャラクタの画像の表示状態が、ステップ21(ST21)における発話動作に適合するようにする。なお、このステップ21(ST21)におけるキャラクタは、謝罪姿勢を呈してはいない通常状態のキャラクタとされている。
In step 21 (ST21), the
次いで、ステップ22(ST22)においては、ユーザが、発話ボタン3を押し下げた状態でマイク2に向かって「トウキョウトシナガワク」と発話すると、この発話音声が音声認識装置1内に入力される。
Next, in step 22 (ST22), when the user utters “Tokyo Shinagawa” toward the
次いで、ステップ23(ST23)においては、音声認識部5により、ステップ22(ST22)において入力された発話音声に対する音声認識を行った上で、認識結果出力部6により、当該音声認識の認識結果「ドウキョウトタイトウク」を出力する発話動作を行い、その直後に、コマンド入力要求出力部10により、「ピー」という音を発した上で次のコマンドの入力を促す発話動作を行う。
Next, in step 23 (ST23), the
また、このステップ23(ST23)においても、ステップ21(ST21)と同様に、キャラクタ描画部16により、ディスプレイ19に表示されたキャラクタの画像の表示状態が、ステップ23(ST23)における発話動作に適合するようにする。なお、このステップ23(ST23)におけるキャラクタも、謝罪姿勢を呈してはいない通常状態のキャラクタとされている。
Also in step 23 (ST23), as in step 21 (ST21), the display state of the character image displayed on the
しかしながら、このステップ23(ST23)における認識結果は誤認識であるため、ユーザは、誤認識であることを音声認識装置に入力するために、続くステップ24(ST24)において、バックボタン11を操作して「戻る」のコマンドを入力することによって、誤認識入力を行う。
However, since the recognition result in step 23 (ST23) is misrecognition, the user operates the
このステップ24(ST24)の操作により、誤認識回数計測部14は、1回目の誤認識を計測する。 By the operation in step 24 (ST24), the misrecognition frequency measurement unit 14 measures the first misrecognition.
次いで、ステップ25(ST25)においては、再入力要求出力部12により、誤認識回数計測部14の計測結果に基づいて、1回目の誤認識に応答する再入力要求音声として、「すみません、住所をお話下さい。」という音声を出力する発話動作を行う。この再入力要求音声は、ステップ21(ST21)とは異なり、謝罪表現が含まれている。
Next, in step 25 (ST25), the re-input
また、このステップ25(ST25)においても、キャラクタ描画部16により、ディスプレイ19に表示されたキャラクタの画像の表示状態が、ステップ25(ST25)における発話動作に適合するようにする。ただし、このステップ25(ST25)におけるキャラクタの画像は、ステップ21(ST21)とは異なり、謝罪姿勢を呈している(例えば、頭を下げている)キャラクタの画像とされている。
Also in step 25 (ST25), the
次いで、ステップ26(ST26)においては、ユーザの発話により、音声認識装置1に対して発話音声「トウキョウトシナガワク」を再び入力する。
Next, in step 26 (ST26), the speech “Tokyo Shinagawa” is input again to the
次いで、ステップ27(ST27)においては、音声認識部5により、ステップ26(ST26)において入力された発話音声に対する音声認識を行った上で、認識結果出力部6により、当該音声認識の認識結果「ドウキョウトチュウオウク」を出力する発話動作を行い、その直後に、コマンド入力要求出力部10により、「ピー」という音を発した上で次のコマンドの入力を促す発話動作を行う。
Next, in step 27 (ST27), the
また、このステップ27(ST27)においても、キャラクタ描画部16により、ディスプレイ19に表示されたキャラクタの画像の表示状態が、ステップ27(ST27)における発話動作に適合するようにする。
Also in step 27 (ST27), the
しかしながら、このステップ27(ST27)における認識結果はまたしても誤認識であるため、ユーザは、誤認識であることを音声認識装置に入力するために、続くステップ28(ST28)において、バックボタン11の操作によって「戻る」のコマンドを入力する。 However, since the recognition result in step 27 (ST27) is erroneously recognized again, the user selects the back button in the following step 28 (ST28) in order to input the erroneous recognition to the voice recognition device. The command of “return” is input by the operation of 11.
このステップ28(ST28)の操作により、誤認識回数計測部14は、2回目の誤認識を計測する。 By the operation of this step 28 (ST28), the erroneous recognition frequency measurement unit 14 measures the second erroneous recognition.
次いで、ステップ29(ST29)においては、再入力要求出力部12により、誤認識回数計測部14の計測結果に基づいて、2回目の誤認識に応答する再入力要求音声として、「申し訳ございません。もう一度住所をお話下さい。」という音声を出力する発話動作を行う。この再入力要求音声は、ステップ25(ST25)のときよりも更に丁寧さおよび謝罪表現の度合が高まったものとなっている。
Next, at step 29 (ST29), the re-input
また、このステップ29(ST29)においても、キャラクタ描画部16により、ディスプレイ19に表示されたキャラクタの画像の表示状態が、ステップ29(ST29)における発話動作に適合するようにする。
Also in step 29 (ST29), the
このステップ29(ST29)におけるキャラクタの画像は、ステップ25(ST25)のときよりも更に謝罪姿勢の度合いが高まったキャラクタの画像(例えば、さらに深々と頭を下げている画像)とされている。 The character image in this step 29 (ST29) is a character image (for example, an image in which the head is lowered more deeply) in which the degree of apology is higher than that in step 25 (ST25).
次いで、ステップ30(ST30)においては、ユーザの発話により、音声認識装置1に対して発話音声「トウキョウトシナガワク」を再び入力する。
Next, in step 30 (ST30), the speech “Tokyo Shinagawa” is input again to the
次いで、ステップ31(ST31)においては、音声認識部5により、ステップ30(ST30)において入力された発話音声に対する音声認識を行った上で、認識結果出力部6により、当該音声認識の認識結果「ドウキョウトシンジュクク」を出力する発話動作を行い、その直後に、コマンド入力要求出力部10により、「ピー」という音を発した上で次のコマンドの入力を促す発話動作を行う。
Next, in step 31 (ST31), the
このとき、認識結果出力部6は、「ドウキョウトシンジュククでよろしいですか」という丁寧な表現で認識結果を出力するようにしてもよい。また、このとき、認識結果出力部6は、申し訳なさを表現するために、認識結果を弱い声で出力するようにしてもよい。
At this time, the recognition
また、このステップ31(ST31)においても、キャラクタ描画部16により、ディスプレイ19に表示されたキャラクタの画像の表示状態が、ステップ31(ST31)における発話動作に適合するようにする。
Also in step 31 (ST31), the
しかしながら、このステップ31(ST31)における認識結果はまたしても誤認識であるため、ユーザは、誤認識であることを音声認識装置に入力するために、続くステップ32(ST32)において、バックボタン11の操作によって「戻る」のコマンドを入力する。 However, since the recognition result in step 31 (ST31) is erroneously recognized again, the user presses the back button in subsequent step 32 (ST32) in order to input the recognition to the voice recognition device. The command of “return” is input by the operation of 11.
このステップ32(ST32)の操作により、誤認識回数計測部14は、3回目の誤認識を計測する。 By the operation in step 32 (ST32), the misrecognition frequency measurement unit 14 measures the third misrecognition.
次いで、ステップ33(ST33)においては、認識失敗通知部15により、誤認識回数計測部14の計測結果に基づいて、失敗通知音声として、「大変申し訳ございません。音声認識に失敗しました。」という音声を出力する発話動作を行う。 Next, in step 33 (ST33), the recognition failure notification unit 15 causes the failure notification voice based on the measurement result of the erroneous recognition frequency measurement unit 14 to be “sorry. Sorry, voice recognition failed.” Perform an utterance operation that outputs voice.
また、このステップ33(ST33)においても、キャラクタ描画部16により、ディスプレイ19に表示されたキャラクタの画像の表示状態が、ステップ33(ST33)における発話動作に適合するようにする。
Also in step 33 (ST33), the
このステップ33(ST33)におけるキャラクタの画像は、ステップ29(ST29)のときよりも更に謝罪姿勢の度合いが高まったキャラクタの画像とされている。 The character image in step 33 (ST33) is an image of a character with a higher apology posture than in step 29 (ST29).
以上述べたように、本実施形態によれば、音声認識の誤認識の回数の増加にともなって、再入力要求音声が表す言語についての丁寧さの度合および謝罪表現の度合を高めることができるので、誤認識にともなう不快感およびストレスを軽減することができる。 As described above, according to the present embodiment, as the number of misrecognitions of voice recognition increases, the degree of politeness and apology for the language represented by the re-input request voice can be increased. , Discomfort and stress associated with misrecognition can be reduced.
また、不快感が募った状態では、適正な発話が困難な場合が多いため、最終的な音声認識の成功率が低減してしまうこともあるため、本発明のように不快感を軽減することができれば、最終的な音声認識の成功率を向上させることにもつながる。 In addition, in the state where discomfort is solicited, proper utterance is often difficult, and the success rate of the final speech recognition may be reduced, so that discomfort is reduced as in the present invention. If this is possible, it will lead to an improvement in the final speech recognition success rate.
なお、本発明は、前述した実施の形態に限定されるものではなく、必要に応じて種々の変更が可能である。 In addition, this invention is not limited to embodiment mentioned above, A various change is possible as needed.
例えば、前述した実施形態においては、誤認識入力手段として、バックボタン11を用いていたが、本発明は、このような構成に限定されるものではなく、マイク2を誤認識入力手段として機能させることによって、誤認識入力を音声入力によって行うことが可能に構成してもよい。ただし、この場合には、誤認識入力がなされたと判断することができるように、例えば、音声認識装置側で、予め誤認識入力に相当する特定の言語(例えば、「間違い」、「駄目」、あるいは、特定の罵詈雑言等)を保持しておき、この特定の言語が入力されたか否かによって誤認識入力がなされたことの有無を判定することが必要となる。
For example, in the above-described embodiment, the
また、誤認識の回数の増加にともなって、キャラクタの画像を徐々に癒し度の高いもの(例えば、丸みを帯びたもの)にするようにしてもよい。 Further, as the number of erroneous recognitions increases, the character image may be gradually healed (eg, rounded).
1 音声認識装置
2 マイク
5 音声認識部
6 認識結果出力部
8 スピーカ
11 バックボタン
12 再入力要求出力部
15 認識失敗通知部
16 キャラクタ描画部
19 ディスプレイ
DESCRIPTION OF
Claims (7)
この音声認識手段の認識結果を表す音声を、スピーカを介して出力する認識結果出力手段と、
この認識結果出力手段によって出力された音声が表す前記認識結果が誤認識である旨の入力が可能とされた誤認識入力手段と、
この誤認識入力手段による前記誤認識である旨の入力に応答して、前記発話音声の再入力を要求するための音声である再入力要求音声を、前記スピーカを介して出力する再入力要求出力手段と、
前記誤認識が所定回数連続した場合に、前記音声認識に失敗したことを通知するための音声である失敗通知音声を、前記スピーカを介して出力する認識失敗通知手段と
を備えた音声認識装置であって、
前記再入力要求出力手段は、謝罪表現が含まれた前記再入力要求音声を出力するように形成されているとともに、前記誤認識の回数の増加にともなって、前記再入力要求音声に含まれる謝罪表現の丁寧さの度合いを高めるように形成されていること
を特徴とする音声認識装置。 Speech recognition means for performing speech recognition for recognizing the language represented by the uttered speech input via the microphone;
Recognition result output means for outputting a voice representing the recognition result of the voice recognition means via a speaker;
A misrecognition input unit capable of inputting that the recognition result represented by the voice output by the recognition result output unit is a misrecognition;
A re-input request output for outputting a re-input request voice, which is a voice for requesting re-input of the uttered voice, in response to an input to the effect of the erroneous recognition by the erroneous recognition input means. Means,
A recognition failure notification means comprising: a recognition failure notification means for outputting, via the speaker, a failure notification sound that is a sound for notifying that the voice recognition has failed when the erroneous recognition has continued for a predetermined number of times. There,
The re-input request output means is configured to output the re-input request voice including an apology expression, and the apology included in the re-input request voice as the number of times of erroneous recognition increases. A speech recognition device characterized by being formed so as to increase the degree of politeness of expression.
を特徴とする請求項1に記載の音声認識装置。 The recognition result output means is formed to increase the degree of politeness of the expression when outputting the voice representing the recognition result as the number of erroneous recognitions increases. The speech recognition apparatus according to 1.
を特徴とする請求項1または請求項2に記載の音声認識装置。 The speech recognition apparatus according to claim 1, wherein the recognition failure notification unit is configured to output the failure notification sound including an apology expression.
前記キャラクタ表示処理手段は、前記再入力要求音声の出力の際に、前記キャラクタの画像として、謝罪姿勢を呈するようなキャラクタの画像を表示するように形成されているとともに、前記誤認識の回数の増加にともなって、当該キャラクタの画像が呈する謝罪姿勢の丁寧さの度合を高めるように形成されていること
を特徴とする請求項1乃至請求項3のいずれか1項に記載の音声認識装置。 Character display processing means for displaying an anthropomorphic character image on the display unit according to the operation state of the speech recognition apparatus body,
The character display processing means is configured to display an image of a character that exhibits an apology as the character image when the re-input request voice is output, and the number of times of erroneous recognition is determined. The voice recognition device according to any one of claims 1 to 3, wherein the voice recognition device is formed so as to increase a degree of politeness of an apology posture exhibited by the image of the character as the number increases.
前記キャラクタ表示処理手段は、前記認識結果を表す音声の出力の際に、前記キャラクタの画像として、前記誤認識の回数の増加にともなって、当該キャラクタの画像が呈する丁重姿勢の度合いが高まるようなキャラクタの画像を表示するように形成されていること
を特徴とする請求項4に記載の音声認識装置。 The recognition result output means is formed so as to increase the degree of politeness of the expression when outputting the voice representing the recognition result as the number of misrecognitions increases.
The character display processing means may increase the degree of polite posture exhibited by the character image as the character image increases as the number of times of erroneous recognition is increased when outputting the voice representing the recognition result. The voice recognition apparatus according to claim 4, wherein the voice recognition apparatus is configured to display an image of a character.
前記キャラクタ表示処理手段は、前記失敗通知音声の出力の際に、前記キャラクタの画像として、謝罪姿勢を呈するようなキャラクタの画像を表示するように形成されていること
を特徴とする請求項4または請求項5に記載の音声認識装置。 The recognition failure notification means is configured to output the failure notification sound including an apology expression,
The character display processing means is configured to display an image of a character that exhibits an apology as the character image when the failure notification sound is output. The speech recognition apparatus according to claim 5.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008051975A JP5189858B2 (en) | 2008-03-03 | 2008-03-03 | Voice recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008051975A JP5189858B2 (en) | 2008-03-03 | 2008-03-03 | Voice recognition device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009210703A true JP2009210703A (en) | 2009-09-17 |
JP5189858B2 JP5189858B2 (en) | 2013-04-24 |
Family
ID=41183946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008051975A Active JP5189858B2 (en) | 2008-03-03 | 2008-03-03 | Voice recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5189858B2 (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180227418A1 (en) | 2016-06-13 | 2018-08-09 | Google Llc | Automated call requests with status updates |
JP2018142329A (en) * | 2018-03-27 | 2018-09-13 | 株式会社ユピテル | System and program |
JP2018173456A (en) * | 2017-03-31 | 2018-11-08 | 国立大学法人大阪大学 | Dialogue robot and robot control program |
US10827064B2 (en) | 2016-06-13 | 2020-11-03 | Google Llc | Automated call requests with status updates |
JP2021060585A (en) * | 2020-12-01 | 2021-04-15 | 株式会社ユピテル | System and program |
WO2021246056A1 (en) * | 2020-06-05 | 2021-12-09 | ソニーグループ株式会社 | Information processing device and information processing method, and computer program |
US11303749B1 (en) | 2020-10-06 | 2022-04-12 | Google Llc | Automatic navigation of an interactive voice response (IVR) tree on behalf of human user(s) |
US11468893B2 (en) | 2019-05-06 | 2022-10-11 | Google Llc | Automated calling system |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05216618A (en) * | 1991-11-18 | 1993-08-27 | Toshiba Corp | Voice interactive system |
JPH11109989A (en) * | 1997-10-02 | 1999-04-23 | Toyota Motor Corp | Speech recognition device |
JP2001142484A (en) * | 1991-11-18 | 2001-05-25 | Toshiba Corp | Method for voice conversation and system therefor |
JP2002041279A (en) * | 2000-07-21 | 2002-02-08 | Megafusion Corp | Agent message system |
JP2003169147A (en) * | 2001-11-30 | 2003-06-13 | Buzzhits Kk | Client response system and method |
JP2004053251A (en) * | 2001-11-13 | 2004-02-19 | Equos Research Co Ltd | In-vehicle device, data creating device and data creation program |
WO2004049304A1 (en) * | 2002-11-25 | 2004-06-10 | Matsushita Electric Industrial Co., Ltd. | Speech synthesis method and speech synthesis device |
JP2005037615A (en) * | 2003-07-18 | 2005-02-10 | Omron Corp | Client device, voice recognition server, distributed voice recognition system, voice recognition program, and computer-readable recording medium |
JP2007011380A (en) * | 2005-07-01 | 2007-01-18 | Bose Corp | Automobile interface |
-
2008
- 2008-03-03 JP JP2008051975A patent/JP5189858B2/en active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05216618A (en) * | 1991-11-18 | 1993-08-27 | Toshiba Corp | Voice interactive system |
JP2001142484A (en) * | 1991-11-18 | 2001-05-25 | Toshiba Corp | Method for voice conversation and system therefor |
JPH11109989A (en) * | 1997-10-02 | 1999-04-23 | Toyota Motor Corp | Speech recognition device |
JP2002041279A (en) * | 2000-07-21 | 2002-02-08 | Megafusion Corp | Agent message system |
JP2004053251A (en) * | 2001-11-13 | 2004-02-19 | Equos Research Co Ltd | In-vehicle device, data creating device and data creation program |
JP2003169147A (en) * | 2001-11-30 | 2003-06-13 | Buzzhits Kk | Client response system and method |
WO2004049304A1 (en) * | 2002-11-25 | 2004-06-10 | Matsushita Electric Industrial Co., Ltd. | Speech synthesis method and speech synthesis device |
JP2005037615A (en) * | 2003-07-18 | 2005-02-10 | Omron Corp | Client device, voice recognition server, distributed voice recognition system, voice recognition program, and computer-readable recording medium |
JP2007011380A (en) * | 2005-07-01 | 2007-01-18 | Bose Corp | Automobile interface |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10893141B2 (en) | 2016-06-13 | 2021-01-12 | Google Llc | Automated call requests with status updates |
US11012560B2 (en) | 2016-06-13 | 2021-05-18 | Google Llc | Automated call requests with status updates |
US10917522B2 (en) | 2016-06-13 | 2021-02-09 | Google Llc | Automated call requests with status updates |
JP2019522914A (en) * | 2016-06-13 | 2019-08-15 | グーグル エルエルシー | Escalation to human operators |
US20190306314A1 (en) | 2016-06-13 | 2019-10-03 | Google Llc | Automated call requests with status updates |
US10560575B2 (en) | 2016-06-13 | 2020-02-11 | Google Llc | Escalation to a human operator |
US10574816B2 (en) | 2016-06-13 | 2020-02-25 | Google Llc | Automated call requests with status updates |
US10582052B2 (en) | 2016-06-13 | 2020-03-03 | Google Llc | Automated call requests with status updates |
US20180227418A1 (en) | 2016-06-13 | 2018-08-09 | Google Llc | Automated call requests with status updates |
US10827064B2 (en) | 2016-06-13 | 2020-11-03 | Google Llc | Automated call requests with status updates |
US11936810B2 (en) | 2016-06-13 | 2024-03-19 | Google Llc | Automated call requests with status updates |
US11563850B2 (en) | 2016-06-13 | 2023-01-24 | Google Llc | Automated call requests with status updates |
US10721356B2 (en) | 2016-06-13 | 2020-07-21 | Google Llc | Dynamic initiation of automated call |
JP2018173456A (en) * | 2017-03-31 | 2018-11-08 | 国立大学法人大阪大学 | Dialogue robot and robot control program |
JP2018142329A (en) * | 2018-03-27 | 2018-09-13 | 株式会社ユピテル | System and program |
US11468893B2 (en) | 2019-05-06 | 2022-10-11 | Google Llc | Automated calling system |
WO2021246056A1 (en) * | 2020-06-05 | 2021-12-09 | ソニーグループ株式会社 | Information processing device and information processing method, and computer program |
US11303749B1 (en) | 2020-10-06 | 2022-04-12 | Google Llc | Automatic navigation of an interactive voice response (IVR) tree on behalf of human user(s) |
US20220201119A1 (en) | 2020-10-06 | 2022-06-23 | Google Llc | Automatic navigation of an interactive voice response (ivr) tree on behalf of human user(s) |
US11843718B2 (en) | 2020-10-06 | 2023-12-12 | Google Llc | Automatic navigation of an interactive voice response (IVR) tree on behalf of human user(s) |
JP7199104B2 (en) | 2020-12-01 | 2023-01-05 | 株式会社ユピテル | System and program |
JP2021060585A (en) * | 2020-12-01 | 2021-04-15 | 株式会社ユピテル | System and program |
Also Published As
Publication number | Publication date |
---|---|
JP5189858B2 (en) | 2013-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11887590B2 (en) | Voice enablement and disablement of speech processing functionality | |
US10339166B1 (en) | Systems and methods for providing natural responses to commands | |
JP5189858B2 (en) | Voice recognition device | |
JP3662780B2 (en) | Dialogue system using natural language | |
US20020123894A1 (en) | Processing speech recognition errors in an embedded speech recognition system | |
JP2011059659A (en) | Method and system for activating multiple functions including first function and second function | |
JP2019090942A (en) | Information processing unit, information processing system, information processing method and information processing program | |
JP4729902B2 (en) | Spoken dialogue system | |
US11676572B2 (en) | Instantaneous learning in text-to-speech during dialog | |
JP2013205842A (en) | Voice interactive system using prominence | |
US10699706B1 (en) | Systems and methods for device communications | |
CN115088033A (en) | Synthetic speech audio data generated on behalf of human participants in a conversation | |
CN115552516A (en) | Correcting speech misrecognition of spoken utterances | |
US20230395066A1 (en) | Hot-word free pre-emption of automated assistant response presentation | |
JP2010197644A (en) | Speech recognition system | |
US20230148275A1 (en) | Speech synthesis device and speech synthesis method | |
JP2007127896A (en) | Voice recognition device and voice recognition method | |
JP4498906B2 (en) | Voice recognition device | |
JP4951422B2 (en) | Speech recognition apparatus and speech recognition method | |
JP2005128130A (en) | Speech recognition device, speech recognition method, and program | |
JP3846500B2 (en) | Speech recognition dialogue apparatus and speech recognition dialogue processing method | |
US12020703B2 (en) | Enabling natural conversations with soft endpointing for an automated assistant | |
JP2006023444A (en) | Speech dialog system | |
JP2010230852A (en) | Command-recognizing device | |
JP2007272123A (en) | Voice operation system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120217 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120521 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120529 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120723 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130122 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130125 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160201 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5189858 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |