JP5357321B1 - Speech recognition system and method for controlling speech recognition system - Google Patents
Speech recognition system and method for controlling speech recognition system Download PDFInfo
- Publication number
- JP5357321B1 JP5357321B1 JP2012271713A JP2012271713A JP5357321B1 JP 5357321 B1 JP5357321 B1 JP 5357321B1 JP 2012271713 A JP2012271713 A JP 2012271713A JP 2012271713 A JP2012271713 A JP 2012271713A JP 5357321 B1 JP5357321 B1 JP 5357321B1
- Authority
- JP
- Japan
- Prior art keywords
- voice
- response
- user
- correction
- predetermined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 23
- 238000012937 correction Methods 0.000 claims abstract description 205
- 230000004044 response Effects 0.000 claims abstract description 137
- 238000004590 computer program Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 7
- 230000009471 action Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000004397 blinking Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】システムの応答中にユーザの言葉が発せられた場合でも、ユーザの音声を正しく認識すること。
【解決手段】音声認識システム1は、所定の訂正指示語を記憶する訂正語辞書22、23と、通常の語句を記憶する一般辞書21と、訂正語辞書と一般辞書のいずれかを使用することで、音声入力部を介して入力されるユーザの音声を認識する音声認識部14と、音声認識部の音声認識結果を含む応答を音声出力部38から出力する応答部31と、を備える。第2の訂正語辞書23は、応答部が所定の応答を出力中に音声入力部11から入力されるユーザの音声を認識すべく、所定の応答と所定の訂正指示語とが重なって音声入力部から入力された場合を考慮して作成されている。
【選択図】図1To correctly recognize a user's voice even when a user's words are uttered during a system response.
A speech recognition system uses a correction word dictionary (22, 23) that stores a predetermined correction instruction word, a general dictionary (21) that stores a normal word, and either a correction word dictionary or a general dictionary. The voice recognition unit 14 recognizes the user's voice input via the voice input unit, and the response unit 31 outputs a response including the voice recognition result of the voice recognition unit from the voice output unit 38. In the second correction word dictionary 23, a predetermined response and a predetermined correction instruction word are overlapped with each other in order to recognize a user's voice input from the voice input unit 11 while the response unit outputs a predetermined response. It is created considering the case of input from the department.
[Selection] Figure 1
Description
本発明は、音声認識システムおよび音声認識システムの制御方法に関する。 The present invention relates to a speech recognition system and a control method for the speech recognition system.
ユーザの音声を認識し、その認識結果に応じて応答する対話型の音声認識システムが普及しつつある。そのようなシステムでは、入力されるユーザの音声にシステムからの応答が重畳し、結果的にユーザが発した音声とは異なる音がシステムに入力し、誤認識する可能性がある。 Interactive speech recognition systems that recognize user's voice and respond according to the recognition result are becoming popular. In such a system, a response from the system is superimposed on the input user's voice, and as a result, a sound different from the voice uttered by the user may be input to the system and erroneously recognized.
そこで、ユーザ音声とシステム応答とが重畳した場合であってもユーザ音声を正しく認識する第1の従来技術では、マイクロフォンから音声認識システムに入力した音声信号の中から、ロボットの発話部分の信号をエコーキャンセル処理により取り除き、ユーザが発した音声のみを音声認識システムに供給することで誤認識を防ぐ技術がある(特許文献1)。また、第2の従来技術では、ユーザの音声と所定の雑音とを重ねた音声データに基づいて辞書を作成し、その辞書を用いてユーザの音声を認識することで、誤認識を防いでいる(特許文献2)。 Therefore, in the first conventional technique for correctly recognizing the user voice even when the user voice and the system response are superimposed, the signal of the utterance part of the robot is obtained from the voice signal input from the microphone to the voice recognition system. There is a technique for preventing misrecognition by removing only by echo cancellation processing and supplying only the voice uttered by the user to the voice recognition system (Patent Document 1). In the second prior art, a dictionary is created based on voice data obtained by superimposing a user's voice and predetermined noise, and the user's voice is recognized using the dictionary, thereby preventing erroneous recognition. (Patent Document 2).
なお、第3の従来技術として、ユーザの音声を正しく認識したか否かを判断するために、音声認識結果に基づいてユーザに返答し、その返答の最中にユーザから訂正を求める音声が入力された場合には、初回の認識結果が誤認識と判断し、ユーザの訂正発声の認識結果に基づいて返答内容を変更する技術も知られている(特許文献3)。 As a third prior art, in order to determine whether or not the user's voice has been correctly recognized, a reply is made to the user based on the voice recognition result, and a voice requesting correction is input from the user during the reply. In such a case, a technique is also known in which the first recognition result is determined to be erroneous recognition, and the response content is changed based on the recognition result of the user's correction utterance (Patent Document 3).
しかしながら、第1の従来技術は、エコーキャンセル処理が安定するまでに所定の時間を要するため、短い発話を認識することが難しい。第2の従来技術では、マイクロフォンの周囲の雑音が変化する場合、その雑音に応じた辞書を使用しないと、ユーザの音声を正しく認識することができない。第3の従来技術は、音声認識の誤りについてユーザに訂正の機会を与えることが記載されているだけであり、ユーザとシステムとが同時に発話した場合の音声認識の誤り防止については記載されていない。音声認識システムがユーザの音声を誤って認識したままだと、ユーザの不快感が増加して使い勝手などが低下する。 However, since the first conventional technique requires a predetermined time until the echo cancellation processing is stabilized, it is difficult to recognize a short utterance. In the second prior art, when the noise around the microphone changes, the user's voice cannot be recognized correctly unless a dictionary corresponding to the noise is used. The third prior art only describes providing a user with an opportunity to correct a speech recognition error, and does not describe prevention of speech recognition error when the user and the system speak at the same time. . If the voice recognition system misrecognizes the user's voice, the user's discomfort increases and usability decreases.
本発明は、上記の問題に鑑みてなされたもので、その目的は、ユーザの音声とシステムからの応答とが重なる場合であっても音声認識の誤りを訂正できるようにした音声認識システムおよび音声認識システムの制御方法を提供することにある。 The present invention has been made in view of the above problems, and an object of the present invention is to provide a speech recognition system and a speech that can correct speech recognition errors even when a user's speech and a response from the system overlap. It is to provide a control method of a recognition system.
本発明の一つの観点に係る音声認識システムは、ユーザの音声を認識して応答する音声認識システムであって、ユーザの音声を入力するための音声入力部と、ユーザが音声認識結果を訂正するために使用する可能性のある所定の訂正指示語を記憶する訂正語辞書データベースと、通常の語句を記憶する一般辞書データベースと、訂正語辞書データベースと一般辞書データベースのいずれかを使用することで、音声入力部を介して入力されるユーザの音声を認識する音声認識部と、音声認識部の音声認識結果を含む応答を音声出力部から出力する応答部と、を備える。 A voice recognition system according to one aspect of the present invention is a voice recognition system that recognizes and responds to a user's voice, and a voice input unit for inputting the user's voice, and the user corrects the voice recognition result. By using either a correction word dictionary database that stores a predetermined correction instruction word that may be used in order to use, a general dictionary database that stores normal words and phrases, a correction word dictionary database, or a general dictionary database, A voice recognition unit that recognizes a user's voice input via the voice input unit; and a response unit that outputs a response including a voice recognition result of the voice recognition unit from the voice output unit.
訂正語辞書データベースと一般辞書データベースを切り替えて使用することで、ユーザが発した訂正指示語を正しく認識できる可能性が高まる。 By switching between the correction word dictionary database and the general dictionary database, the possibility that the correction instruction word issued by the user can be correctly recognized increases.
訂正語辞書データベースは、応答部が所定の応答を出力中に音声入力部から入力されるユーザの音声を認識すべく、所定の応答と所定の訂正指示語とが重なって音声入力部から入力された場合を考慮して作成することができる。 The correction word dictionary database is input from the voice input unit by overlapping the predetermined response and the predetermined correction instruction word so as to recognize the user's voice input from the voice input unit while the response unit outputs the predetermined response. It can be created considering the case.
訂正語辞書データベースは、所定の訂正指示語の通常の読みと、通常の読みの変形である変形読みとを記憶することができる。 The correction word dictionary database can store a normal reading of a predetermined correction instruction word and a modified reading that is a modification of the normal reading.
変形読みは、所定の訂正指示語の通常の読みのうち所定箇所の音を他の音に置換することで構成してもよい。所定箇所の音は、通常の読みの先頭から所定範囲の音素または音節であってもよい。 The modified reading may be configured by replacing a sound at a predetermined position in a normal reading of a predetermined correction instruction word with another sound. The sound at the predetermined location may be a phoneme or syllable within a predetermined range from the beginning of normal reading.
本実施形態では、以下に詳述する通り、ユーザが音声認識結果を訂正するために使用する可能性のある所定の訂正指示語を記憶する訂正語辞書データベースと、通常の語句を記憶する一般辞書データベースとを切り替えて使用する。これにより、本実施形態では、システムからの応答とユーザの音声とが重なった場合でも、ユーザからの訂正指示を正しく認識することができる可能性が高まり、ユーザの満足感、安心感、使い勝手などが向上する。 In the present embodiment, as will be described in detail below, a correction word dictionary database that stores a predetermined correction instruction word that a user may use to correct a speech recognition result, and a general dictionary that stores normal words and phrases Switch to the database and use it. Thereby, in this embodiment, even when the response from the system and the user's voice overlap, the possibility that the correction instruction from the user can be correctly recognized increases, and the user's satisfaction, security, usability, etc. Will improve.
図1は、本実施例の音声認識システム1の全体構成を示すブロック図である。音声認識システム1は、ユーザと対話しながらユーザの指示を理解し、ユーザの指示した所定の動作を実行する。このような対話型音声認識システムは、例えば、ロボット2、携帯情報端末(携帯電話、スマートフォン、音楽再生装置、デジタルカメラ、パーソナルコンピュータなどを含む)3、乗用車、トラック、建設機械などの各種車両4などに広く適用できる。それら以外の装置、システムなどにも本実施例の音声認識システムを適用できる。本実施例では、ユーザと対話して動作する対話型ロボットを例に挙げて説明する。
FIG. 1 is a block diagram showing the overall configuration of the
音声認識システムは、音声認識部と動作制御部とに分けることができる。音声認識部は、音声入力部11、A/D(Analog/Digital)変換部12、特徴抽出部13、マッチング部14、音響モデルデータベース15、文法データベース16、辞書選択部17、行動決定部18、一般辞書データベース21、第1の訂正語辞書データベース22、第2の訂正語辞書データベース23とを含んで構成することができる。
The voice recognition system can be divided into a voice recognition unit and an operation control unit. The voice recognition unit includes a voice input unit 11, an A / D (Analog / Digital)
音声入力部11は、音声を音声認識システム1に入力するための装置である。例えば、マイクロフォンなどが音声入力部11として使用されてもよい。また、メモリ装置などに記憶された音声データを音声認識システム1に入力できる構成としてもよい。この場合、音声入力部11は、メモリ装置からデータを受け取るためのインターフェース回路を備えて構成される。
The voice input unit 11 is a device for inputting voice to the
A/D変換部12は、アナログ信号として入力された音声信号をデジタル信号としての音声データに変換する。特徴抽出部13は、音声データのうち予め設定される複数の箇所での特徴を抽出する。マッチング部14は、音声データの特徴と音響モデルデータベース15と文法データベース16、辞書選択部17により選択される辞書データベース21〜23のいずれかを用いて、入力された音声データを認識する。
The A /
音響モデルデータベース15は、テキスト(読み)とテキストを発音したときの波形とを対応づけて記憶したデータベースであり、どのような波形の音がどのような単語として認識されるかを定義している。文法データベース16は、単語の並べ方(文法)などを記憶したデータベースである。
The
辞書選択部17は、一般辞書データベース21、第1の訂正語辞書データベース22、第2の訂正語辞書データベース23を所定のタイミングで選択する。マッチング部14は、辞書選択部17で選択された辞書データベースを用いて音声データを認識する。
The
行動決定部18は、マッチング部14の音声認識結果に基づいて、音声認識システム1の行動(詳しくは音声認識システム1の行動および/または音声認識システム1が搭載された装置またはシステムの動作)を決定する。
Based on the speech recognition result of the matching
図2を参照する。一般辞書データベース21は、通常の言葉とその通常の読みとを対応づけて記憶した辞書データベースであり、後述する訂正指示語を含んでいても良いし、含んでいなくても良い。第1の訂正語辞書データベース22は、「他の訂正語辞書データベース」に該当し、音声認識システム1が発話した直後にユーザから発せられる可能性の高い訂正指示語に関する単語のデータを記録したものであり、訂正指示語とその通常の読みとを対応づけて記憶している。第2の訂正語辞書データベース23は、音声認識システム1の発話中にユーザが音声を発した場合であっても正しくユーザの発話を認識するためのものであり、訂正指示語とその通常の読みに加えて、通常の読みの所定箇所を他の音に置き換えた変形読みを対応づけて記憶する。なお、上記のように一般辞書データベース21には訂正指示語のデータを含んでいても良いし、または、一般辞書データベース21に訂正指示語のデータを含めず、通常の認識時には一般辞書データベース21と第1の訂正語辞書データベース22との両方を用いて音声認識するよう構成しても良い。以下、辞書データベースを「辞書」と呼び、また一般辞書データベース21には訂正指示語のデータが含まれていないものを例に挙げて説明する。
Please refer to FIG. The
所定の訂正指示語とは、ユーザが音声認識の結果を取り消すために使用する可能性のある言葉であり、例えば、「違う」、「そうじゃない」、「間違ってる」、「ノー」、「止めなさい」、「停止」、「やり直し」などを挙げることができる。 The predetermined correction instruction word is a word that the user may use to cancel the result of the speech recognition. For example, “No”, “No”, “Wrong”, “No”, “No” Stop, ”“ stop, ”“ redo ”, etc.
本実施例の一般辞書21は、上述の通り、通常の辞書に登録されている一般の単語の中から所定の訂正指示語を取り除いた単語とその読みを記憶している。これに対し、第1の訂正語辞書22は、所定の訂正指示語とその通常の読みだけを記憶している。
As described above, the
通常の読みには、その訂正指示語の基本的な読みだけでなく、語尾が変化した読みを含めることができる。例えば、訂正指示語「違う」の基本的な通常の読みは「ちがう」であるが、「ちがうよ」、「ちがいます」、「ちがうって」、「ちゃう」などの、通常の読みの語尾が自然に変化したものや、違うを意味する方言等の他の読みを含めてよい。 Normal readings can include not only basic readings of the correction instruction words, but also readings with changed endings. For example, the basic normal reading of the correction instruction word “different” is “different”, but the endings of normal readings such as “different”, “different”, “different”, “chau”, etc. May include other readings such as those that have changed naturally or dialects that mean different.
第2の訂正語辞書23は、所定の訂正指示語の通常の読みだけでなく、通常の読みの所定箇所を他の音に置換した変形読みを記憶する。図3で後述するように、変形読みは、通常の読みの先頭から所定範囲の音を他の音に置き換えることで得られる。
The second
変形読みと通常の読みの語尾変化とは、例えば、音の変化部分が主に単語の先頭であるか末尾であるかの点と、使用頻度の高い読みであるか、それとも不自然な置換であり使用頻度の低い読みであるかの点とで相違する。例えば、訂正指示語「違う」の場合、その通常の読みは「ちがう」であるが、変形読みには「じがう」、「きがう」などの不自然かつ使用頻度の低い読みが含まれるのに対し、語尾変化は「ちがうよ」、「ちがいます」など自然に用いられる単語が含まれる。 Modified reading and normal ending change are, for example, whether the change part of the sound is mainly at the beginning or end of a word and whether it is a frequently used reading or unnatural substitution. There is a difference in whether it is a reading with low usage frequency. For example, when the correction instruction word is “different”, the normal reading is “different”, but the modified reading includes unnatural and infrequently used readings such as “giga” and “kiga”. On the other hand, ending changes include words that are naturally used, such as “different” or “different”.
図1に戻って音声認識システム1の有する動作制御部の構成を説明する。動作制御部は、例えば、システム制御部31、表示制御部32、発話制御部33、機構制御部34、表示部35、音声合成部36、D/A(Digital/Analog)変換部37、音声出力部38、アクチュエータ39を含んで構成することができる。
Returning to FIG. 1, the configuration of the operation control unit of the
システム制御部31は、音声認識結果から決定された行動に基づいて、音声認識システム1または音声認識システム1の搭載された装置またはシステムの動作を制御する。システム制御部31は「応答部」の一例である。システム制御部31は、例えば、マイクロプロセッサ、メモリ、インターフェースなどを有するコンピュータシステムを使用するコンピュータプログラムとして実現される。以下、音声認識システム1の動作と音声認識システム1の搭載された装置またはシステムの動作を区別せずに、音声認識システム1の動作として説明する。
The
表示制御部32は、表示部35の動作を制御する。表示制御部32は、システム制御部31から指示された表示内容を実現すべく、表示部35に信号を出力する。表示部35としては、例えば、液晶ディスプレイ、プラズマディスプレイ、有機EL(ElectroLuminescence)ディスプレイなどのディスプレイ装置、LED(Light Emitting Diode)ランプなどがある。プリンタ、視覚障害者用のピンディスプレイなどを表示部35として使用してもよい。
The
発話制御部33は、音声認識システム1から出力する音声(応答)を制御する。発話制御部33は、システム制御部31から指示された応答メッセージをユーザに通知すべく、音声合成部36に指示を与える。音声合成部36は、入力される応答メッセージに対応する波形データを組み合わせて音声(応答)を合成する。合成された音声は、D/A変換部37によりアナログ信号に変換され、音声出力部38から出力される。音声出力部38としては、例えばスピーカのように構成される。
The
機構制御部34は、システム制御部31から指示された動作を実現すべく、アクチュエータ39に制御信号を出力する。アクチュエータ39は、音声認識システム1の搭載される装置またはシステムの種類によって異なる。例えば、ロボット2の場合、頭、手足などを動かすための電動モータ、ソレノイド磁石などがアクチュエータ39となる。携帯情報端末3の場合は、例えば、端末を振動させるための振動発生装置などがアクチュエータ39となる。車両4の場合、例えば、空調装置、ライト、ラジオ、ナビゲーション装置、エンジンなどがアクチュエータ39となり得る。
The
図3を用いて第2の訂正語辞書23の作成方法の一例を説明する。第2の訂正語辞書23を作成する方法は、以下の2つの段階に分けることができる。その一つは、認識候補となる単語を記憶する認識候補語辞書を作成する段階(S10)である。他の一つは、ユーザの音声と音声出力部38からの応答とを重ね合わせた音声の認識結果に基づいて所定の読み(変形読み)を抽出する段階(S20)である。
An example of a method for creating the second
第1の段階(S10)について説明する。第1段階では、ユーザが発声する可能性のある訂正指示語の先頭の音を50音の他の音で置き換えた認識候補語を網羅的に生成して、認識候補語辞書24に登録する。
The first stage (S10) will be described. In the first stage, recognition candidate words in which the first sound of the correction instruction word that the user may utter is replaced with another sound of 50 sounds are comprehensively generated and registered in the recognition
先頭の音を他の音に置き換える理由を説明する。ユーザの発する音声は一般的に先頭の音が小さい傾向を示す。このため、音声認識システム1の応答とユーザ音声とが重なった場合、ユーザ音声の先頭の音が別の音として認識されやすい。そこで、本実施例では、ユーザの発する可能性があると考えられる所定の訂正指示語のうち、その先頭の音を他の音で置き換えることで、認識候補語を生成する。
The reason for replacing the first sound with another sound will be described. The voice uttered by the user generally shows a tendency that the leading sound is small. For this reason, when the response of the
例えば、訂正指示語「そうじゃない」を例に挙げると、その先頭の音「そ」を他の音に順番に置き換えた、「あうじゃない」、「いうじゃない」、「ううじゃない」、「えうじゃない」、「おうじゃない」、「かうじゃない」、「きうじゃない」、「くうじゃない」・・・等を挙げることができる。 For example, taking the correction instruction word “not so” as an example, the leading sound “so” is replaced with other sounds in order, “not so good”, “not good”, “not good” , “It's not like”, “It's not like”, “It's not like”, “It's not like”, “It's not like”, etc.
例えば、訂正指示語「違う」の場合、その先頭の音「ち」を他の音に置き換えた「あがう」、「いがう」、「うがう」、「えがう」、「おがう」、「かがう」、「きがう」、「くがう」、「けがう」、「こがう」・・・等を挙げることができる。 For example, if the correct instruction word is “different”, the sound “Chi” at the beginning is replaced with another sound, “Agau”, “Igau”, “Ugau”, “Egau”, “ Examples include “goga”, “kaga”, “gaiga”, “kuga”, “kega”, “gagar”, and the like.
このようにして、訂正指示語を認識する可能性のある候補語の読みを自動的にまたは手動で生成して、認識候補語辞書24に登録する。他の全ての訂正指示語についても同様に、先頭の音を他の音に置き換えた認識候補語の読みを認識候補語辞書24に登録する。
In this manner, readings of candidate words that may recognize the correction instruction word are automatically or manually generated and registered in the recognition
なお、先頭の一音だけを他の音に置き換えるのではなく、先頭から複数の音を他の音に置き換えることで、認識候補語を生成してもよい。例えば「そうじゃない」の場合、「ああじゃない」、「ああうじゃない」のような候補語を得ることができる。 Note that the recognition candidate word may be generated by replacing a plurality of sounds with other sounds instead of replacing only the first sound with other sounds. For example, in the case of “not so”, candidate words such as “not ah” and “not ah” can be obtained.
また、音の一部(音素)をアルファベット順に他の音素に置換することで、認識候補語を生成する構成でもよい。例えば、「違う(ti ga u)」の場合、先頭の音の子音「t」が認識できない場合や、先頭の音の子音「t」が認識できず、かつ、母音「i」も弱く入力し、例えば、結果的に「hi ga u」と変化して認識される場合や、先頭の音に複数の音が混ざり、「ち」がスペクトル分布の広い音「き」、「け」、「た」、「て」、「と」に変化し、「違う」が例えば「ki ga u」と認識される場合を想定して、他の音素に置換すれば良い。「ti ga u」の場合、例えば「ai ga u」、「bi ga u」、「ci ga u」、「di ga u」のように認識候補語を生成することもできるし、先頭の音に限らず、言葉の途中の音で音ズレが生じることを想定し、他の音素に置換して認識候補語を生成することもできる。 Moreover, the structure which produces | generates a recognition candidate word may be sufficient by replacing a part (phoneme) of a sound with another phoneme in alphabetical order. For example, in the case of “different (ti ga u)”, the consonant “t” of the first sound cannot be recognized, the consonant “t” of the first sound cannot be recognized, and the vowel “i” is also input weakly For example, when it is recognized as “hi ga u” as a result, or when multiple sounds are mixed with the first sound, “Chi” is a sound with a wide spectrum distribution “Ki”, “Ke”, “Ta ”,“ Te ”, and“ to ”, and assuming that“ different ”is recognized as“ ki ga u ”, for example, it may be replaced with another phoneme. In the case of “ti ga u”, recognition candidate words such as “ai ga u”, “bi ga u”, “ci ga u”, “di ga u” can be generated, The recognition candidate word can also be generated by substituting with other phonemes on the assumption that a sound shift occurs in the middle of the word.
さらに、訂正指示語の通常の読みの先頭の一つまたは複数の音と、先頭以外の他の箇所の一つまたは複数の音を、50音順またはアルファベット順などの所定の順番で、他の音に置き換えて認識候補語を生成する構成でもよい。 In addition, one or more sounds at the beginning of the normal reading of the correction instruction word and one or more sounds at other locations other than the beginning are placed in a predetermined order such as 50-sound order or alphabetical order, A configuration in which recognition candidate words are generated by replacing with sounds may be used.
次に第2の段階(S20)について説明する。第2段階では、ユーザの発する訂正指示語の音声データ(訂正指示語を通常の読みで発声した音声のデータ)をメモリ装置に録音する(S21)。次に、その録音したユーザ音声のデータを、音声出力部38から出力される所定の応答に対してタイミングを所定量ずつずらしながら再生して重ね合わせ、合成音を音声入力部11から音声認識システム1に入力する(S22)。
Next, the second stage (S20) will be described. In the second stage, the voice data of the correction instruction word issued by the user (the voice data uttered by the normal reading of the correction instruction word) is recorded in the memory device (S21). Next, the recorded user voice data is reproduced and superimposed while shifting the timing by a predetermined amount with respect to a predetermined response output from the
音声認識システム1のA/D変換部12は、入力された合成音(ユーザ音声と音声認識システム1からの応答とが所定のタイミングで重なった音声)をデジタル信号に変化する(S23)。特徴抽出部13は、デジタル化された合成音データから所定の特徴を抽出する(S24)。
The A /
マッチング部14は、抽出された特徴と、音響モデルデータベース15と、文法データベース16および認識候補語辞書24に基づいて、合成音を認識する(S25)。そして、合成音の認識結果のうち、元々の訂正指示語に一致する度合い(尤度)が所定値以上の認識結果を、訂正指示語の変形読みとして選択する(S26)。最後に、選択した変形読みを第2の訂正語辞書23に登録する(S27)。
すなわち、第1の段階(S10)で生成した多数の認識候補語の中から、音声認識システムの発話出力とユーザ音声とが重複した場合に認識される可能性の高いものを判定し、第2の訂正語辞書23に登録する。
The matching
In other words, among the many recognition candidate words generated in the first stage (S10), a word that is highly likely to be recognized when the speech output of the speech recognition system and the user speech overlap is determined, and the second Are registered in the
図4を用いて音声認識システム1の全体動作を説明する。以下、動作の主体をシステム1と略称する。システム1は、一般辞書21を使用して(S30)、音声入力部11からユーザ音声が入力されるのを待つ(S31)。ユーザの音声が入力されると(S31:YES)、システム1はそのユーザ音声の認識処理を実行し(S32)、予め設定されている所定の応答を音声出力部38から出力する(S33)。ステップS33で出力される応答は「第1応答」の一例であり、ステップS32におけるユーザ音声の認識結果をユーザに知らせるための内容を含む。
The overall operation of the
システム1は第1応答の出力を終了した後(S34:YES)、使用する辞書を一般辞書21から第1の訂正語辞書22に切り替える(S35)。システム1は、第1応答の終了後の所定時間(第1の訂正可能期間)だけ、ユーザからの訂正指示語の入力を待つ(S36〜S39)。
After completing the output of the first response (S34: YES), the
即ち、システム1は、第1の訂正語辞書22に切り替えた後、ユーザ音声が音声入力部11から入力されたか確認し(S36)、ユーザ音声が入力された場合(S36:YES)、そのユーザ音声を第1の訂正語辞書22を用いて認識する(S37)。システム1は、訂正指示語のみ登録された第1の訂正語辞書22を用いて音声を認識するため、訂正指示語を速やかに認識できる。システム1は、ユーザからの訂正指示語の入力を待つ第1の訂正可能期間において、訂正指示語以外の他の単語は認識することができない。
That is, after switching to the first
システム1は、第1の訂正可能期間に入力したユーザ音声の認識結果が訂正指示語であるか判定し(S38)、訂正指示語の場合(S38:YES)、図5で後述する訂正処理を実行する。ユーザ音声の認識結果が訂正指示語ではない場合(S38:NO)、システム1は所定時間が経過したか判定し(S39)、所定時間が経過するまでの間(第1の訂正可能期間)、ステップS35に戻ってユーザからの音声入力を待つ。
The
第1の訂正可能期間の始期は、第1応答の出力終了時(S34)である。第1応答の終了時と第1の訂正語辞書22の使用開始時とは実質的に同時であるため、第1の訂正可能期間の始期を第1の訂正語辞書の使用開始時として定義することもできる。
The start of the first correctable period is when the output of the first response ends (S34). Since the end of the first response and the start of use of the first
このようにシステム1に入力したユーザの最初の音声の認識結果(S32)を第1応答として出力し(S33)、ユーザがそれを確認した後、その認識結果が間違っている場合には、システム1に対して直ちに訂正指示語を発声する(S36)。この際、システム1はユーザの訂正語の入力を待ち受けて認識し、入力した訂正語に応じて認識結果を取り消すことができる。
As described above, the first speech recognition result (S32) of the user input to the
第1の訂正可能期間内にユーザが訂正指示語を発声しなかった場合(S39:YES)、システム1は、使用する辞書を第1の訂正語辞書22から第2の訂正語辞書23に切り替える(S40)。辞書の切替と同時にシステム1は、予め用意されている所定の応答(第2応答)を音声出力部38から出力する(S41)。第2応答は、例えば、システム1の認識結果(S32)に基づいて行動を決定する旨の通知(例えば、「指示を了解しました」、「わかりました」など)を含むようにして構成することができる。
When the user does not utter the correction instruction word within the first correctable period (S39: YES), the
第2応答を音声出力部38から出力している期間が第2の訂正可能期間である。システム1は、第2応答を出力している間に音声入力部11からユーザ音声(詳しくはユーザ音声と第2応答の重なった音声)が入力されたか検出する(S42〜S45)。
The period during which the second response is output from the
即ち、システム1は、第2応答の出力中に、音声入力部11にシステム1の応答出力以外の音声が入力されたか判定し(S42)、音声が入力された場合は第2の訂正語辞書23を用いてその音声を認識し(S43)、認識結果が訂正指示語であるか判定する(S44)。訂正指示語である場合(S44:YES)、図5で述べる訂正処理を実行する。認識結果が訂正指示語ではなく(S44:NO)、システム1が応答を終了していない場合(S45:NO)、システム1はステップS42に戻る。
That is, the
システム1は、第1および第2の訂正可能期間中に訂正処理が行われなかった場合、つまり最初のユーザ音声の認識(S32)がユーザにより取り消されなかった場合、その認識結果に応じた動作(行動)を決定し(S46)、実行する(S47)。
When the correction process is not performed during the first and second correctable periods, that is, when the first user speech recognition (S32) is not canceled by the user, the
図5を用いて訂正処理(指示を取り消す処理)を説明する。第1訂正可能期間または第2訂正可能期間のいずれかにおいて、ユーザから訂正指示語が発声されたと認識した場合、システム1は、聞き間違えたことをユーザに視覚的に通知するための聞き間違えマークを表示部45に表示する(S50)。さらに、システム1は、聞き間違えたことをユーザに音声で通知するための聞き間違え確認応答を音声出力部38から出力する(S51)。その後、システム1は、図4のステップS30に戻って、ユーザからの音声による指示を待つ。
The correction process (process for canceling the instruction) will be described with reference to FIG. When it is recognized that the correction instruction word is uttered by the user in either the first correctable period or the second correctable period, the
音声認識の誤りを確認したことを視覚的に通知するための表示は、テキストメッセージの表示または印刷、LEDランプの点滅、アクチュエータ39の動作(例えばロボット2の手足を所定のパターンで動かす)のようにして実現できる。 The display for visually notifying that the voice recognition error has been confirmed includes the display or printing of a text message, the blinking of the LED lamp, and the operation of the actuator 39 (for example, moving the limb of the robot 2 in a predetermined pattern). Can be realized.
音声認識の誤りを確認したことを音で知らせるための確認応答は、例えば「聞き間違えたかな」、「ごめんなさい。間違えました」などのように、音声認識の誤りを確認したことのみ示す情報を含んでもよい。または、「聞き間違えました。もう一度言って下さい」などのように、ユーザの再度の指示を促すための情報を含んでもよい。ロボット2が指示待ち状態にあることをLEDランプ等でユーザに知らせる構成でもよい。 The confirmation response to inform you that the speech recognition error has been confirmed is information indicating only that the speech recognition error has been confirmed, such as “I missed it” or “I ’m sorry.” May be included. Alternatively, it may include information for prompting the user again, such as “I made a mistake. Please say again”. The configuration may be such that the user is informed by an LED lamp or the like that the robot 2 is waiting for an instruction.
図6〜図8を用いてシステム1の動作の例を説明する。図6は、システム1がユーザの最初の指示を正しく認識した場合を示す。時刻T0において、システム1は音声認識可能な状態で待機している。図中、音声認識可能な状態を白い矩形で示し、そのうち音声認識処理中の状態を斜線部で示す。但し、音声認識処理の実行中であることを示す斜線部は、理解のための例示であって、処理のタイミングを厳密に示しているわけではない。
An example of the operation of the
システム1は、図4のステップS30、S31で述べたように一般辞書21を選択して、ユーザからの音声入力を待っている。ユーザは、時刻T1において、所望の音声UM1を発する。例えば、ユーザは、ロボット2にクイズの出題を促すべく、「クイズ出してよ」という音声UM1を発したものとする。ここでロボット2は、クイズの出題、ダンスの披露などの所定の機能を実現できるようになっているものとする。
The
システム1は、図4のステップS32で述べたように、ユーザの指示を伝える音声UM1を認識すると、時刻T2において、認識結果を示す第1応答SM1(例えば「クイズですね」)を出力する(図4のS33)。ユーザは、システム1からの第1応答SM1を聞いて、自分の指示が正しく認識されたことを確認する。
As described in step S32 in FIG. 4, when the
システム1は、第1応答SM1の出力終了時刻T3において、一般辞書21から第1訂正辞書22に切り替える(図4のS35)。時刻T3から時刻T5までの間が、システム1の誤認識を訂正するための第1の訂正可能期間となる。
The
ユーザの最初の指示UM1はシステム1により正しく認識されているため、ユーザは、無言のままで待つこともできるし、例えば時刻T4において何らかの言葉UM2(例えば「うん」)を発することもできる。
Since the user's first instruction UM1 is correctly recognized by the
システム1は、ユーザの音声UM2を検出すると、第1の訂正辞書22を用いて音声認識を試みる。しかし、第1の訂正辞書22には訂正指示語のみ登録されているため、システム1は、訂正指示語以外の言葉を認識することはできない。従って、システム1は特に何もせずにそのまま待機する。
When the
時刻T5において第1の訂正可能期間が終了すると同時に、システム1は第2の訂正語辞書23に切り替える(図4のS40)と共に、所定の了解動作RA1の少なくとも一部として、第2の応答SM2を出力する(図4のS41)。
Simultaneously with the end of the first correctable period at time T5, the
所定の了解動作RA1とは、ユーザの指示を了解した旨を通知するための動作であり、音声出力に限らず、例えば表示部35を介した表示出力、アクチュエータ39の動作などを併用してもよい。なお、図4では、第2の訂正語辞書23に切り替えた後で、第2応答SM2を出力するかのように示すが、実際には辞書の切替と第2応答SM2の出力は同時に実行される。
The predetermined acknowledgment operation RA1 is an operation for notifying that the user's instruction has been accepted, and is not limited to voice output, and for example, display output via the
ここで、第2応答が出力される期間である時刻T5から時刻T7までの間が、第2の訂正可能期間となる。第2の訂正可能期間において、ユーザは黙って待っていることもできるし、何らかの言葉UM3(例えば「楽しみだ」)を発することもできる。ユーザの音声UM3は、システム1の第2応答SM2と重なって音声入力部11に入力される。システム1は、ユーザ音声UM3と第2応答SM2とが重なった音声を検出すると、第2の訂正語辞書23を用いて認識を試みる。しかし、上述の通り、第2の訂正語辞書23は、訂正指示語の通常の読みと所定の変形読みだけを記憶しているため、システム1は、ユーザ音声UM3を正しく認識することができない。従って、システム1は、特に何もせずにそのまま待機する。
Here, a period from time T5 to time T7, which is a period during which the second response is output, is the second correctable period. In the second correctable period, the user can either wait silently or speak some word UM3 (eg, “I am looking forward”). The user's voice UM3 is input to the voice input unit 11 so as to overlap the second response SM2 of the
時刻T7において第2応答の出力が終了すると(図4のステップS45)、システム1は、最初のユーザ音声UM1の認識結果から決定された所定の動作RA2(ここではクイズ出題)を開始する。システム1は、所定の動作の一部としての第3応答SM3(例えば「第1問・・・」)を出力する。
When the output of the second response is completed at time T7 (step S45 in FIG. 4), the
第3応答SM3を出力している期間(T7−T8)、システム1は音声認識処理を停止することができる。第3応答SM3の出力終了後の時刻T8において、システム1は一般辞書21を選択し、ユーザからの音声入力を待つ。第3応答SM3の出力期間中に、システム1は一般辞書21を選択して、ユーザの音声を認識できる構成としてもよい。
During the period when the third response SM3 is output (T7-T8), the
図7は、システム1がユーザの最初の指示を誤認識し、ユーザが誤認識に気づいて第1の訂正可能期間(T3−T5)に訂正を要求する場合を示す。
FIG. 7 shows a case where the
システム1は時刻T0において一般辞書21を選択しており、ユーザからの音声が入力されるのを待っている。時刻T1において、ユーザから最初の音声UM1A(例えば「ダンス踊ってよ」)が入力されると(図4のS31)、システム1はその音声を一般辞書21を用いて認識する(図4のS32)。ここで、システム1はユーザ音声UM1Aを誤って認識したとする(例えばクイズ出題を指示されたと認識)。
The
時刻T2において、システム1は、音声認識結果をユーザに伝えて、もしも認識結果に誤りがある場合は訂正指示の機会を与えるべく、音声認識結果を含む第1応答SM1Aを出力する(図4のS33)。ここでは、システム1は、「クイズですね?」と応答するものとする。第1応答SM1Aの出力開始時T2から出力終了時T3までの第1応答出力期間(T2−T3)では、システム1は音声認識処理を停止する。
At time T2, the
第1応答SM1Aの出力終了時T3に、システム1は、第1の訂正語辞書22を選択する(図4のS35)。システム1は、第1の訂正可能期間(T3−T5)において、音声認識可能な状態になり、ユーザからの音声入力を待つ(図4のS36)。
At the end of output of the first response SM1A T3, the
ここでは、システム1からの第1応答SM1Aを聞いたユーザがシステム1の音声認識の誤りに直ちに気づいて、時刻T4において訂正指示UM2Aを発したとする。
Here, it is assumed that the user who hears the first response SM1A from the
システム1は、ユーザの訂正指示UM2Aを第1の訂正辞書22を用いて認識し、訂正指示が要求されたことを知る(図4のS38でYES)。第1訂正可能期間では、システム1からの応答は出力されないため、第1訂正可能期間において音声入力部11に入力される音のうちユーザ音声が占める比は高い(S/N比が大きい)。また、第1の訂正語辞書22は訂正指示語のみ登録しているため、システム1は第1の訂正語辞書22を用いて、ユーザの訂正指示UM2Aが短い場合であっても、その訂正指示UM2Aを速やかに正しく認識することができる。
The
ユーザから訂正指示が発せられたことを知ったシステム1は、時刻T5において、予め登録されている所定の聞き間違え動作RA1Aを開始する。システム1は、聞き間違え動作RA1Aとして、例えば表示部35などに聞き間違えマークを表示したり(図5のS50)、予め登録されている所定の第2応答SM2Aを出力する(図5のS51)。第2応答SM2Aの出力期間中、システム1は音声認識処理を停止できる。
The
聞き間違え動作RA1Aの終了時T7(第2応答SM2Aの出力終了時でもある)に、システム1は一般辞書21を選択し、ユーザ音声の入力を待つ(図4のS30)。つまり、時刻T0の段階に戻る。
At the end of the misinterpretation operation RA1A T7 (also at the end of the output of the second response SM2A), the
システム1の聞き間違え動作を確認したユーザは、時刻T7において、正しい指示UM3Aを発することができる。システム1は、そのユーザ音声UM3Aを一般辞書21を用いて音声認識し(図4のS32)、音声認識結果を含む新たな第1応答SM3Aを音声出力部38から出力する。その後、図6で述べたように、システム1はユーザ指示に応じた所定の動作を実行する。
The user who has confirmed the mistaken operation of the
図8は、システム1がユーザの最初の指示を誤認識し、ユーザが誤認識に気づいて第2の訂正可能期間(T5−T7)に訂正を要求する場合を示す。
FIG. 8 shows a case where the
時刻T1において、ユーザから最初の音声UM1Bが入力されると、システム1はその音声を一般辞書21を用いて認識するが、図7で述べたと同様に誤認識したとする。
When the first voice UM1B is input from the user at time T1, the
時刻T2において、システム1は第1応答SM1Bを出力する。第1応答SM1Bの出力終了時T3に、システム1は、第1の訂正語辞書22を選択する。システム1は、第1の訂正可能期間(T3−T5)において、音声認識可能な状態になり、ユーザからの音声入力を待つ。
At time T2, the
ここでは、ユーザはシステム1の音声認識の誤りに気づいたものの、それに対応するための反応が遅れ、第1の訂正可能期間中に訂正を指示できなかったものとする。第1の訂正可能期間の終了時T5に、システム1は、ユーザ指示(誤認識した指示)に基づいた所定の動作を開始する旨を通知すべく、所定の了解動作RA1Bの少なくとも一部として、第2応答SM2Bを出力する。
Here, it is assumed that the user has noticed an error in the speech recognition of the
第2応答SM2Bの出力期間中(T5−T7)、つまり第2の訂正可能期間に、ユーザから訂正を求める音声UM2Bが入力されたとする。音声入力部11には、第2応答SM2Bとユーザ音声UM2Bとが重なって入力される。 Assume that the user inputs a voice UM2B for correction during the output period of the second response SM2B (T5-T7), that is, in the second correctable period. The second response SM2B and the user voice UM2B are input to the voice input unit 11 in an overlapping manner.
システム1は、第2の訂正可能期間(T5−T7)において、第2の訂正語辞書23を用いた音声認識が可能な状態になっている。上述の通り、第2の訂正語辞書23には、訂正指示語の通常の読みと所定の変形読みだけが登録されている。所定の変形読みは、図3で説明した通り、ユーザの発した訂正指示語をタイミングをずらしながら第2応答に重ねてシステム1に入力した場合の音声認識結果のうち、所定値以上の尤度を有する読みである。従って、第2の訂正可能期間に第2応答SM2Bとユーザ音声UM2Bが重なってシステム1に入力された場合でも、システム1は、ユーザ音声UM2Bが何を言わんとしているのか正確に判別できる。
The
システム1は、ユーザの訂正指示UM2Bを理解した場合、時刻T7において、予め登録されている所定の聞き間違え動作RA2Bを開始する。システム1は、聞き間違え動作RA2Bとして、例えば表示部35などに聞き間違えマークを表示したり、予め登録されている所定の第3応答SM3Bを出力する。
When the
その後、システム1は、音声入力を待つアイドリング状態に戻り(T8)、ユーザからの音声UM3Bが入力されるのを待つ。システム1は、そのユーザ音声UM3Bを一般辞書21を用いて音声認識する。その後、システム1は、音声認識結果を含む新たな第1応答を出力し、指示された通りの所定の動作を実行する(図示省略)。
Thereafter, the
このように構成される本実施例によれば、ユーザが音声認識結果を訂正するために使用する可能性のある訂正指示語を記憶する訂正語辞書22、23と、通常の語句を記憶する一般辞書21を切り替えて使用するため、ユーザの訂正指示を正しく認識できる可能性が高まり、誤認識でコマンドが起動した場合でもそれを速やかに取り消すことができ、使い勝手が向上する。
According to the present embodiment configured as described above, the
本実施例では、ユーザの最初の指示(音声)をシステム1の第1応答として復唱させるため、ユーザはシステム1が正しく認識したか否かを判断できる。そして、本実施例では、ユーザがシステム1の認識を訂正する期間(T3−T7)を、ユーザ音声とシステム1の応答とが重ならない第1の訂正可能期間(T3−T5)と、ユーザ音声とシステム1の応答が重なる可能性のある第2の訂正可能期間(T5−T7)とに分ける。さらに本実施例では、第1の訂正可能期間では、訂正指示語の通常の読みだけを登録した第1の訂正語辞書22を使用し、第2の訂正可能期間では、訂正指示語の通常の読みおよび所定の変形読みだけを登録した第2の訂正語辞書23を使用する。従って、本実施例によれば、ユーザ音声だけが入力される場合も、ユーザ音声とシステム1の応答とが重なって入力される場合のいずれの場合も、ユーザの音声による訂正指示を正しく認識することができる。これにより、システム1の信頼性、使い勝手が向上する。
In this embodiment, since the user's first instruction (voice) is repeated as the first response of the
本実施例では、ユーザが訂正指示を出す可能性の高い期間(T3−T7)において、訂正指示語のみ登録した訂正語辞書22、23を使用する。従って、システム1は、比較的小サイズの訂正語辞書22、23を用いて、訂正指示語が発せられたかを直ちに判別することができる。
In the present embodiment, the
本実施例では、ユーザの発した訂正指示語をタイミングをずらしながら第2応答に重ねてシステム1に入力した場合の音声認識結果のうち、所定値以上の尤度を有する読みを所定の変形読みとして第2の訂正語辞書23に登録する。従って、システム1の応答(第2応答)とユーザの訂正指示の音声とが重なる可能性のある期間に第2の訂正語辞書23を使用することで、ユーザの音声を正しく認識できる可能性が高まる。
In the present embodiment, among the speech recognition results when the correction instruction word issued by the user is input to the
より詳しくは、本実施例では、ユーザ音声の先頭の音を他の音に置き換えた認識候補語を生成し、ユーザの訂正指示語をタイミングをずらしながら第2応答に重ねてシステム1に入力し、認識された候補語のうち所定値以上の尤度を有する候補語の読みを所定の変形読みとして使用する。従って、比較的簡易な構成で第2の訂正語辞書23を作成することができ、その第2の訂正語辞書23を使用することで、S/N比の小さい状況下でもユーザ音声を正しく認識できる確率を高めることができる。
More specifically, in this embodiment, a recognition candidate word is generated by replacing the first sound of the user voice with another sound, and the correction instruction word of the user is input to the
図9を用いて第2実施例を説明する。本実施例を含む以下の各実施例は第1実施例の変形例に該当するため、第1実施例との相違を中心に説明する。本実施例では、第1応答の出力期間中に、第2の一般辞書25を使用する。
A second embodiment will be described with reference to FIG. Each of the following embodiments including the present embodiment corresponds to a modification of the first embodiment, and therefore, description will be made focusing on differences from the first embodiment. In the present embodiment, the second
本実施例の音声認識システム1は、一般辞書21、第1の訂正語辞書22、第2の訂正語辞書23に加えて、第2の一般辞書25を備える。辞書選択部17は、システム制御部31からの指示に基づいて、それら辞書21、22、23、25のうちいずれか一つを選択する。
The
本実施例では、システム1がユーザの最初の指示を復唱するための第1応答SM1を出力している間に音声認識処理を実行可能となっている。システム1は、第1応答SM1を出力している期間に、第2の一般辞書25を用いて音声認識を行うことができる。
In the present embodiment, the voice recognition process can be executed while the
第2の一般辞書25は、図3で述べた第2の訂正語辞書23と同様の作成方法に従って作成することができる。即ち、一般の言葉のそれぞれについて、所定箇所(例えば先頭の1音か2音)の音を他の音に置き換えることで、一般用認識候補語辞書を生成する。そして、システム1が出力する可能性のある全ての第1応答と一般の言葉との全ての組合せについて、重ねるタイミングをずらしながらシステム1に入力する。システム1が認識した一般用の候補語のうち、所定値以上の尤度を有する候補語を所定の一般用変形読みとして、第2の一般辞書25に登録する。第2の一般辞書25は、訂正指示語を含まない一般の言葉の通常の読みと所定の変形読みとを対応付けて記憶する。
The second
図9のタイムチャートを説明する。時刻T1で、システム1は、ユーザ音声UM1Cを一般辞書21(第1の一般辞書)を用いて認識する。時刻T2で、システム1は、第1応答SM1を出力することでユーザ音声UM1Cの認識結果を復唱する。第1応答SM1の出力中に、ユーザが音声UM2Cを発した場合、第1応答SM1とユーザ音声UM2Cとが重なってシステム1に入力される。システム1は、第2の一般辞書25を使用してユーザ音声UM2Cを認識する。システム1は、ユーザ音声UM2Cを認識できたことを示すために、所定の受領動作RA1Cを実行することができる。受領動作RA1Cとして、システム1は、例えば、表示部35にメッセージを表示したり、LEDランプなどを点滅させたりすることができる。
The time chart of FIG. 9 will be described. At time T1, the
その後、第1の訂正可能期間でユーザが訂正指示語以外の音声UM3Cを発しても、その音声は訂正指示ではないため、システム1は特に反応しない。なお、訂正指示語以外の言葉であると認識した場合に、LEDランプを点滅させる等の動作を行ってもよい。
After that, even if the user utters the voice UM3C other than the correction instruction word in the first correctable period, the voice is not a correction instruction, and the
第1応答出力後の第2の訂正可能期間では、システム1は、了解動作RA2Cを実行し、第2応答SM2を出力する。第2の訂正可能期間で訂正指示語以外の音声UM4Cが発せられた場合、そのユーザ音声UM4Cは第2応答SM2に重なってシステム1に入力される。システム1は、第2の訂正語辞書23を用いて音声UM4Cの認識を試みるが、訂正指示語ではないため、特に反応しない。なお、上記同様に、システム1は何らかの反応を示しても良い。
In the second correctable period after the first response is output, the
その後、システム1は、最初のユーザ指示UM1Cに従って所定の動作RA3Cを実行し、第3応答SM3を出力する。第3応答SM3の出力終了後に、システム1は第1の一般辞書21に切り替えて、ユーザからの音声入力を待つ。
Thereafter, the
このように構成される本実施例も第1実施例と同様の作用効果を奏する。さらに本実施例では、ユーザの話す一般の言葉とシステム1の応答とが重なった場合でもユーザ音声を認識できるようにした第2一般辞書25を用いるため、第1応答の出力期間中に発せられたユーザ音声を高精度に認識できる。
Configuring this embodiment like this also achieves the same operational effects as the first embodiment. Furthermore, in this embodiment, since the second
図10を用いて第3実施例を説明する。本実施例では、ユーザがシステム1の誤認識の訂正を要求しうる期間において、訂正語辞書22、23および一般辞書21の両方を使用する。
A third embodiment will be described with reference to FIG. In the present embodiment, both the
図10のタイムチャートに示すように、システム1は、第1の訂正可能期間(T3−T5)では第1の訂正辞書22と一般辞書21を使用し、それに続く第2の訂正可能期間(T5−T7)では第2の訂正語辞書23と一般辞書21を使用する。
As shown in the time chart of FIG. 10, the
このように構成される本実施例も第1実施例と同様の作用効果を得ることができる。さらに、本実施例では、ユーザが訂正指示語を発する可能性のある期間に訂正語辞書22、23と一般辞書21の両方を使用するため、ユーザが訂正指示語以外の一般の言葉を発した場合でも、その言葉を認識することができる。
This embodiment, which is configured in this way, can also obtain the same effects as the first embodiment. Further, in this embodiment, since both the
図11を用いて第4実施例を説明する。本実施例では、ユーザの発する訂正指示語にシステム1の応答および動作音を重ねた場合のユーザ音声の聞こえ方の変化を考慮して、第2の訂正語辞書23Aを作成する。
A fourth embodiment will be described with reference to FIG. In the present embodiment, the second
図11は本実施例による第2の訂正語辞書23Aの生成方法を示す説明図である。本実施例では、ユーザの発する訂正指示語とシステム1の応答とをタイミングをずらしながら重ねるだけでなく(S21)、音声認識システム1を搭載したシステム(例えばロボット2)の動作音を重ねて音声を認識する。認識結果の候補語のうち所定値以上の尤度を有する候補語の読みを第2の訂正語辞書23Aに登録する。音声認識システム1を搭載したシステムの動作音として、例えば、第1応答を出力している期間にロボット2から発せられる可能性の高い音(電動モータの音など)を用いることもできる。動作音は環境音と呼ぶこともできる。
FIG. 11 is an explanatory diagram showing a method of generating the second
このように構成される本実施例も第1実施例と同様の作用効果を奏する。さらに本実施例では、音声認識システム1の応答だけでなく音声認識システム1を搭載したシステムから発せられる音も考慮して、第2の訂正語辞書23を作成するため、ユーザの訂正指示をより正確に認識できる。
Configuring this embodiment like this also achieves the same operational effects as the first embodiment. Furthermore, in the present embodiment, the second
図12を用いて第5実施例を説明する。本実施例では、第2応答の出力終了後の所定時間だけ、第2の訂正語辞書23を使用する音声認識処理を可能としている。図12のタイムチャートに示すように、システム1は、第2応答SM2を出力した後も、所定期間(T7−T8)だけ第2の訂正語辞書23を使用し続ける。
A fifth embodiment will be described with reference to FIG. In the present embodiment, speech recognition processing using the second
本実施例では、第2の訂正語辞書23の使用期間が延びるため、その延長された期間にシステム1が音声出力する可能性のある応答SM3を考慮して、第2の訂正語辞書23を作成するのが好ましい。図3で説明した方法を、他の応答SM3まで拡張するだけで、本実施例に適した第2の訂正辞書23を作成することができる。
In the present embodiment, since the use period of the second
このように構成される本実施例も第1実施例と同様の作用効果を奏する。さらに本実施例では、第2応答の終了後にユーザが訂正指示語を発した場合でも、その訂正指示語を認識することができる。 Configuring this embodiment like this also achieves the same operational effects as the first embodiment. Further, in the present embodiment, even when the user issues a correction instruction word after the end of the second response, the correction instruction word can be recognized.
なお、本発明は、上述した実施の形態に限定されない。当業者であれば、本発明の範囲内で、種々の追加や変更等を行うことができる。 The present invention is not limited to the above-described embodiment. A person skilled in the art can make various additions and changes within the scope of the present invention.
1:音声認識システム、2:ロボット、3:携帯情報端末、4:車両、11:音声入力部、14:マッチング部、17:辞書選択部、18:行動決定部、21:一般辞書、22:第1の訂正語辞書、23、23A:第2の訂正語辞書、24:認識候補語辞書、25:第2の一般辞書、31:システム制御部、35:表示部、38:音声出力部、39:アクチュエータ 1: voice recognition system, 2: robot, 3: portable information terminal, 4: vehicle, 11: voice input unit, 14: matching unit, 17: dictionary selection unit, 18: action determination unit, 21: general dictionary, 22: First correction word dictionary, 23, 23A: Second correction word dictionary, 24: Recognition candidate word dictionary, 25: Second general dictionary, 31: System control unit, 35: Display unit, 38: Audio output unit, 39: Actuator
Claims (4)
ユーザの音声を入力するための音声入力部と、
ユーザが音声認識結果を訂正するために使用する可能性のある所定の訂正指示語を記憶する、それぞれ異なる第1の訂正語辞書データベースおよび第2の訂正語辞書データベースと、
通常の語句を記憶する一般辞書データベースと、
前記第1、第2の訂正語辞書データベースと前記一般辞書データベースのいずれかを使用することで、前記音声入力部を介して入力されるユーザの音声を認識する音声認識部と、
前記音声認識部の音声認識結果を含む応答を音声出力部から出力する応答部と、
を備え、
前記応答部から出力される応答には、前記音声認識部により認識された結果をユーザに通知するための第1応答と、該第1応答から所定時間経過後に出力される第2応答とが含まれており、
前記第2の訂正語辞書データベースは、前記応答部が所定の応答を出力中に前記音声入力部から入力されるユーザの音声を認識すべく、ユーザの発した前記所定の訂正指示語をタイミングをずらしながら前記第2応答に重ねて前記音声入力部に入力した場合の前記音声認識部による音声認識結果のうち、尤度が所定値以上の読みを前記所定の訂正指示語についての所定の変形読みとして、通常の読みと共に記憶することで作成されており、
前記第2の訂正語辞書データベースと異なる前記第1の訂正語辞書データベースには、前記所定の訂正指示語の通常の読みだけが記憶されており、
前記第1応答の出力後から前記第2応答が出力されるまでの第1訂正可能期間では、前記音声認識部は前記第1の訂正語辞書データベースを用いて音声を認識し、
前記第2応答が出力される期間である第2訂正可能期間では、前記音声認識部は前記第2の訂正語辞書データベースを用いて音声を認識する、
音声認識システム。 A voice recognition system that recognizes and responds to a user's voice,
A voice input unit for inputting a user's voice;
Different first correction word dictionary databases and second correction word dictionary databases for storing predetermined correction instruction words that the user may use to correct the speech recognition results;
A general dictionary database that stores normal phrases;
A voice recognition unit that recognizes a user's voice input through the voice input unit by using either the first or second correction word dictionary database or the general dictionary database;
A response unit that outputs a response including a voice recognition result of the voice recognition unit from a voice output unit;
Equipped with a,
The response output from the response unit includes a first response for notifying the user of the result recognized by the voice recognition unit and a second response output after a predetermined time has elapsed from the first response. And
In the second correction word dictionary database, in order to recognize the user's voice input from the voice input unit while the response unit outputs a predetermined response, the predetermined correction instruction word issued by the user is timed. Of the speech recognition results by the speech recognition unit when the input to the speech input unit is superimposed on the second response while shifting, a reading with a likelihood greater than or equal to a predetermined value is a predetermined modified reading for the predetermined correction instruction word It is created by memorizing with normal reading,
In the first correction word dictionary database different from the second correction word dictionary database, only normal reading of the predetermined correction instruction word is stored,
In the first correctable period from the output of the first response to the output of the second response, the speech recognition unit recognizes speech using the first correction word dictionary database,
In a second correctable period in which the second response is output, the voice recognition unit recognizes a voice using the second correction word dictionary database.
Speech recognition system.
請求項1に記載の音声認識システム。 If it is neither the first correctable period nor the second correctable period, the speech recognition unit recognizes speech using the general dictionary database.
The speech recognition system according to claim 1 .
前記音声認識システムは、音声出力部から所定の応答を出力中に音声入力部から入力されるユーザの音声を認識すべく、ユーザの発した所定の訂正指示語をタイミングをずらしながら前記所定の応答に重ねて前記音声入力部に入力した場合の音声認識結果のうち、尤度が所定値以上の読みを前記所定の訂正指示語についての所定の変形読みとして、通常の読みと共に記憶することで作成される第2の訂正語辞書データベースと、前記第2の訂正語辞書データベースと異なる第1の訂正語辞書データベースであって、前記所定の訂正指示語の通常の読みだけが記憶される第1の訂正語辞書データベースと、を備えており
前記音声入力部からユーザの音声を入力する音声入力ステップと、
前記第1の訂正語辞書データベースおよび前記第2の訂正語辞書データベースと、通常の語句を記憶する一般辞書データベースとのいずれかを選択する辞書選択ステップと、
選択された辞書データベースを用いることでユーザの音声を認識する音声認識ステップと、
音声認識結果を含む応答を前記音声出力部から出力する応答ステップと、
を実行し、
さらに、前記応答ステップが応答を出力しない間は前記第1の訂正語辞書データベースを使用し、前記応答ステップが応答を出力する間は前記第2の訂正語辞書データベースを使用する、
音声認識システムの制御方法。A method for controlling a voice recognition system that recognizes and responds to a user's voice,
The voice recognition system is configured to recognize the user's voice input from the voice input unit while outputting the predetermined response from the voice output unit, while shifting the timing of the predetermined correction instruction word issued by the user. Created by storing a reading with a likelihood equal to or greater than a predetermined value as a predetermined modified reading for the predetermined correction instruction word together with a normal reading, among the voice recognition results when input to the voice input unit overlaid on And a first correction word dictionary database different from the second correction word dictionary database, in which only normal readings of the predetermined correction instruction words are stored. Correction word dictionary database
A voice input step of inputting a user's voice from the voice input unit,
A dictionary selection step of selecting any one of the first correction word dictionary database and the second correction word dictionary database, and a general dictionary database storing normal words;
A voice recognition step for recognizing a user's voice by using the selected dictionary database;
A response step of outputting a response containing the speech recognition result from the voice output unit,
The execution,
Furthermore, while the response step does not output a response, the first correction word dictionary database is used, and while the response step outputs a response, the second correction word dictionary database is used.
Control method of speech recognition system.
前記コンピュータに、
音声出力部から所定の応答を出力中に音声入力部から入力されるユーザの音声を認識すべく、ユーザの発した所定の訂正指示語をタイミングをずらしながら前記所定の応答に重ねて前記音声入力部に入力した場合の音声認識結果のうち、尤度が所定値以上の読みを前記所定の訂正指示語についての所定の変形読みとして、通常の読みと共に記憶することで作成される第2の訂正語辞書データベースと、前記第2の訂正語辞書データベースと異なる第1の訂正語辞書データベースであって、前記所定の訂正指示語の通常の読みだけが記憶される第1の訂正語辞書データベースと、を実現させると共に、
前記音声入力部からユーザの音声を入力する音声入力ステップと、
前記第1の訂正語辞書データベースと、前記第2の訂正語辞書データベースと、通常の語句を記憶する一般辞書データベースとのいずれかを選択する辞書選択ステップと、
選択された辞書データベースを用いることでユーザの音声を認識する音声認識ステップと、
音声認識結果を含む応答を前記音声出力部から出力する応答ステップと、
を実行し、
さらに、前記応答ステップが応答を出力しない間は前記第1の訂正語辞書データベースを使用し、前記応答ステップが応答を出力する間は前記第2の訂正語辞書データベースを使用することを実現させるためのコンピュータプログラム。A computer program for causing a computer to function as a voice recognition system,
In the computer,
In order to recognize the user's voice input from the voice input unit while outputting the predetermined response from the voice output unit, the voice input is performed by superimposing the predetermined correction instruction word issued by the user on the predetermined response while shifting the timing. A second correction created by storing a reading having a likelihood equal to or greater than a predetermined value, as a predetermined modified reading for the predetermined correction instruction word, together with a normal reading among the speech recognition results input to the unit A first correction word dictionary database that is different from the second correction word dictionary database and stores only normal readings of the predetermined correction instruction words; And realize
A voice input step of inputting a user's voice from the voice input unit,
A dictionary selection step of selecting one of the first correction word dictionary database, the second correction word dictionary database, and a general dictionary database storing normal words;
A voice recognition step for recognizing a user's voice by using the selected dictionary database;
A response step of outputting a response containing the speech recognition result from the voice output unit,
The execution,
Further, in order to realize that the first correction word dictionary database is used while the response step does not output a response, and the second correction word dictionary database is used while the response step outputs a response. Computer program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012271713A JP5357321B1 (en) | 2012-12-12 | 2012-12-12 | Speech recognition system and method for controlling speech recognition system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012271713A JP5357321B1 (en) | 2012-12-12 | 2012-12-12 | Speech recognition system and method for controlling speech recognition system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP5357321B1 true JP5357321B1 (en) | 2013-12-04 |
JP2014115594A JP2014115594A (en) | 2014-06-26 |
Family
ID=49850246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012271713A Active JP5357321B1 (en) | 2012-12-12 | 2012-12-12 | Speech recognition system and method for controlling speech recognition system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5357321B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101494600B1 (en) * | 2014-01-10 | 2015-02-23 | 주식회사 로보로보 | Robot control system based on voice recognition and a robot control method using the same |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018116206A (en) * | 2017-01-20 | 2018-07-26 | アルパイン株式会社 | Voice recognition device, voice recognition method and voice recognition system |
-
2012
- 2012-12-12 JP JP2012271713A patent/JP5357321B1/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101494600B1 (en) * | 2014-01-10 | 2015-02-23 | 주식회사 로보로보 | Robot control system based on voice recognition and a robot control method using the same |
Also Published As
Publication number | Publication date |
---|---|
JP2014115594A (en) | 2014-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8942982B2 (en) | Semiconductor integrated circuit device and electronic instrument | |
JP2007264471A (en) | Voice recognition device and method therefor | |
JP2006201749A (en) | Device in which selection is activated by voice, and method in which selection is activated by voice | |
US9812129B2 (en) | Motor vehicle device operation with operating correction | |
JP2004029270A (en) | Voice controller | |
JP5431282B2 (en) | Spoken dialogue apparatus, method and program | |
JP5189858B2 (en) | Voice recognition device | |
JP5357321B1 (en) | Speech recognition system and method for controlling speech recognition system | |
JP2008122483A (en) | Information processing apparatus, method and program | |
JP2006208486A (en) | Voice inputting device | |
JP2007033478A (en) | Multi-modal dialog system and multi-modal application generation wizard | |
JP2006058390A (en) | Speech recognition device | |
JP2007127896A (en) | Voice recognition device and voice recognition method | |
JP5818753B2 (en) | Spoken dialogue system and spoken dialogue method | |
JP4487299B2 (en) | Voice recognition device | |
JP2006058641A (en) | Speech recognition device | |
JP2008051883A (en) | Voice synthesis control method and apparatus | |
JPH11109989A (en) | Speech recognition device | |
JP2014016402A (en) | Speech input device | |
JP2004333703A (en) | Voice recognition system, and correction and learning method of voice recognition | |
JP5041754B2 (en) | Still image display switching system | |
JP4983587B2 (en) | Single syllable input device | |
JP2005283797A (en) | Device and method for speech recognition | |
JP2006023444A (en) | Speech dialog system | |
JP4060237B2 (en) | Voice dialogue system, voice dialogue method and voice dialogue program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
R150 | Certificate of patent or registration of utility model |
Ref document number: 5357321 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |