JP2007072351A - Speech recognition device - Google Patents
Speech recognition device Download PDFInfo
- Publication number
- JP2007072351A JP2007072351A JP2005261782A JP2005261782A JP2007072351A JP 2007072351 A JP2007072351 A JP 2007072351A JP 2005261782 A JP2005261782 A JP 2005261782A JP 2005261782 A JP2005261782 A JP 2005261782A JP 2007072351 A JP2007072351 A JP 2007072351A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- state
- voice
- microphone
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
この発明は、音声を視聴空間に出力すると共に、視聴空間の音声を取り入れ、取り入れた入力音声の音声認識をする音声認識装置に関するものである。 The present invention relates to a speech recognition apparatus that outputs audio to a viewing space, takes in audio from the viewing space, and performs speech recognition of the incorporated input speech.
自装置から音を出力しながら音声認識を行う音声認識装置においては、マイクによって取り込まれる音声には、ユーザが音声認識用に発話した音声に加えて、自装置から出力されているオーディオ信号に対応した音声が空間エコーとして取り込まれる。このため、従来の音声認識装置は、自装置から出力されているオーディオ信号を参照信号として、マイクから取り込まれた入力音声信号からオーディオ信号の空間エコーをキャンセルし、キャンセルした入力音声信号の音声認識を行うことで、音声認識精度を向上させる(例えば、特許文献1参照)。 In a speech recognition device that performs speech recognition while outputting sound from its own device, the audio captured by the microphone corresponds to the audio signal output from the own device in addition to the speech uttered by the user for speech recognition Voice is captured as a spatial echo. For this reason, the conventional speech recognition device cancels the spatial echo of the audio signal from the input speech signal captured from the microphone using the audio signal output from the device as a reference signal, and recognizes the canceled input speech signal. To improve the voice recognition accuracy (see, for example, Patent Document 1).
しかしながら、従来の音声認識装置では、例えば、音声認識装置のマイクを取り付けたAV機器のリモコンのように、マイクが移動可能な場合に、AV機器からの出力音声のエコーパスが変化しエコーキャンセルを失敗し、音声認識を誤ってしまうという問題点があった。また、エコーキャンセルを失敗した原因がユーザにわからないため、誤認識の改善ができないという問題点があった。 However, in the conventional speech recognition device, when the microphone is movable, for example, as in the remote control of the AV device to which the microphone of the speech recognition device is attached, the echo path of the output speech from the AV device changes and the echo cancellation fails. However, there is a problem that voice recognition is mistaken. Further, since the user does not know the cause of the echo cancellation failure, there is a problem that the erroneous recognition cannot be improved.
本発明は上記のような問題を解決するためになされたもので、視聴空間の音声を取り入れるマイクが移動可能な場合でも音声認識の誤認識を抑えられる音声認識装置を得ることを目的とする。 The present invention has been made to solve the above-described problems, and an object of the present invention is to provide a speech recognition device that can suppress erroneous recognition of speech recognition even when a microphone that captures speech in a viewing space is movable.
この発明に係る音声認識装置は、スピーカから出力された音声の空間エコーを入力音声信号からキャンセルし、当該空間エコーをキャンセルした入力音声信号の音声認識をする音声処理を、加速度センサによって監視されたマイクの移動状態に応じて実行するものである。 In the speech recognition device according to the present invention, the speech processing for canceling the spatial echo of the speech output from the speaker from the input speech signal and performing speech recognition of the input speech signal with the spatial echo canceled is monitored by the acceleration sensor. This is executed according to the movement state of the microphone.
この発明によれば、マイクの移動を監視し、マイクの移動状態に応じて音声処理を実行することにより、マイクが移動してエコーパスが変わることによるエコーキャンセルの失敗で音声認識を誤認識することを抑えることができる効果がある。 According to the present invention, the movement of the microphone is monitored, and the voice processing is executed according to the movement state of the microphone, so that the voice recognition is erroneously recognized due to the echo cancellation failure due to the movement of the microphone and the echo path changing. There is an effect that can be suppressed.
実施の形態1.
図1は、この発明を実施するための実施の形態1における音声認識装置を示すブロック図である。例えば、図示しないAV機器、TV等と音声認識装置とを接続し、音声認識装置の音声認識結果に応じて、図示しないAV機器、TV等をユーザの発話に応じて動作させるように構成することができる。
図1において、音声出力部1は、視聴空間に出力される音声のオーディオ信号を出力する。スピーカ2は、上記音声出力部1から出力されたオーディオ信号に対応した音声を視聴空間に出力する。マイク3は、視聴空間の音声を取り入れ、取り入れた入力音声の入力音声信号を出力する。加速度センサ4は、上記マイク3の移動状態を監視する。例えば、移動開始・停止、移動速度、移動方向、停止時間等の移動状態を監視する。
Embodiment 1 FIG.
FIG. 1 is a block diagram showing a speech recognition apparatus according to Embodiment 1 for carrying out the present invention. For example, an AV device, TV, etc. (not shown) are connected to a voice recognition device, and the AV device, TV, etc. (not shown) are operated according to the user's utterance according to the voice recognition result of the voice recognition device. Can do.
In FIG. 1, an audio output unit 1 outputs an audio signal of audio output to the viewing space. The
音声処理部5は、上記スピーカ2から出力された音声の空間エコーを上記入力音声信号からキャンセルし、当該空間エコーをキャンセルした入力音声信号の音声認識をする音声処理を、上記加速度センサ6によって監視された上記マイク3の移動状態に応じて実行するものであり、ここでは上記マイク3の移動状態に基づいて処理を起動・停止するように構成されている。
The
なお、上記音声処理部5は、エコーキャンセラ6と音声認識部7とで構成され、エコーキャンセラ6は、上記スピーカ2で出力されたオーディオ信号に対応した音声がマイク3に回り込むまでの空間エコーの経路(エコーパス)の学習をし、その学習結果を用いて、上記スピーカ2から出力された音声の空間エコーを上記入力音声信号からキャンセルする。ここでは、参照信号として、上記音声出力部1から出力されたオーディオ信号を用いて、上記スピーカ2から出力された音声の空間エコーをキャンセルする。また、音声認識部7は、上記エコーキャンセラ6で空間エコーをキャンセルした入力音声信号の音声認識の処理を行う。
The
次に動作について説明する。
音声出力部1が、視聴空間に出力される音声のオーディオ信号、例えば、TV放送音声、VTR・DVD再生音声、外部入力機器からの入力音声、操作案内用出力音声等のAV機器からの音声等に対応するオーディオ信号を出力すると、スピーカ2は、音声出力部1から出力されたオーディオ信号に対応する音声を視聴空間へ出力する。これにより、ユーザは、上記オーディオ信号に対応した音声を聞くことが可能となる。
Next, the operation will be described.
Audio output unit 1 outputs audio signals of audio output to the viewing space, for example, TV broadcast audio, VTR / DVD playback audio, audio input from external input devices, audio from AV devices such as operation guidance output audio, etc. When the audio signal corresponding to the audio signal is output, the
一方、ユーザが発話をすると、例えば、ユーザがAV機器へ音声による指示を行うための発話をすると、マイク3は、視聴空間に発せられたユーザが発話した音声(ユーザ発話)を取り入れ、取り入れた入力音声の入力音声信号を出力する。この時、スピーカ2が音声を出力していると、マイク3では、上記ユーザ発話に加えて、上記スピーカ2が出力した音声を空間エコーとして取り込み、これらを合わせたものが入力音声となる。
On the other hand, when the user utters, for example, when the user utters to give an audio instruction to the AV device, the
また、この時、加速度センサ4は、上記マイク3の移動状態を監視している。例えば、マイク3の移動開始・停止、移動速度、移動方向、停止時間等の移動状態を監視している。音声処理部5は、上記加速度センサ4によって監視された上記マイク3の移動状態に応じて音声処理を実行するように構成されており、ここでは、上記マイク3の移動状態に基づいて、認識状態の遷移判定を行い、遷移判定の結果に応じて、音声処理を実行する。音声処理としては、例えば、エコーパス学習、エコーキャンセル、音声認識等の処理がある。また、認識状態の遷移判定は、例えば、一定時間毎に行い、判定結果として、認識状態、例えば、認識停止状態、認識待ち状態、認識中状態の各状態に応じて音声処理の各処理を実施すると共に、各処理の起動・停止を行う。
At this time, the
ここで、加速度センサ4の監視によりマイク3が移動中の状態にあるということは、即ちマイク3が移動している事を意味している。この場合スピーカ2で出力されたオーディオ信号に対応した音声がマイク3に回り込むまでの空間エコーの経路(エコーパス)が変化している事を意味しており、エコーキャンセラ6がエコーパスの変化に追従できずにエコーキャンセルに失敗することになる。このため、エコーキャンセラ6の出力は、ユーザ発話にスピーカ2で出力されたオーディオ信号に対応した音声の空間エコーがキャンセルされずに重畳されS/Nが悪くなった信号となり、音声認識部7で誤認識を起こしやすくなり、音声認識結果に基づく動作の誤動作の原因となる。このため、加速度センサ4でマイク3の移動を検出した場合には、音声処理部5での音声認識を停止させることにより、音声認識の誤認識による動作の誤動作を防ぐことができる。加速度センサ4がマイク3の停止を検出した場合は、エコーキャンセラ6でエコーパスの学習に関する処理を行い、エコーパス学習に必要な時間を置いた後、入力音声が有れば、エコーキャンセラ6でのエコーキャンセル、音声認識部7での音声認識の各処理を開始する。
Here, the fact that the
またここで、認識状態の遷移判定について、認識停止状態とは、エコーキャンセル、音声認識等、音声認識に関する処理を停止する又は行わない状態である。例えば、マイク3が移動中、エコーパスの学習中に認識停止状態となる。認識待ち状態とは、エコーキャンセル、音声認識等、音声認識に関する処理を行うことが可能な状態であり、音声の入力があれば処理を実行可能な状態である。認識中状態とは、エコーキャンセル、音声認識等、音声認識に関する処理を行っている途中の状態である。
Here, regarding the recognition state transition determination, the recognition stop state is a state in which processing related to speech recognition such as echo cancellation and speech recognition is stopped or not performed. For example, the recognition is stopped while the
上記音声処理5が処理を行う場合、認識停止状態の時にエコーパスの学習をし、認識待ち状態の時に音声入力が有ると、上記音声処理部5のエコーキャンセルの処理として、エコーキャンセラ6では、マイク3が出力した入力音声信号のうち、スピーカ2から出力されたオーディオ信号に対応した音声の空間エコーをキャンセルし、空間エコーをキャンセルした後の入力音声信号を出力する。この時、エコーキャンセラ6は、空間エコーをキャンセルするための参照信号として、音声出力部1から出力されたオーディオ信号を使用する。続いて、上記音声処理部5の音声認識の処理として、音声認識部7では、上記エコーキャンセラ6で空間エコーをキャンセルした後の入力音声信号を入力として、音声認識を行う。
When the
このように、視聴空間の音声、例えば、ユーザ発話によるAV機器への指示が音声認識され、この音声認識の結果に基づいて動作、例えば、AV機器を動作させることが可能となる。 As described above, the voice in the viewing space, for example, an instruction to the AV device by the user's utterance is recognized as voice, and the operation, for example, the AV device can be operated based on the result of the voice recognition.
図2は、この認識状態の遷移判定の一例を示す説明図である。
図2において、遷移判定では、まず、移動判定(ステップ101)で加速度センサ4からの移動状態を取得し、マイク3が移動しているか否かを判定する。マイク3が移動していると判定された場合は、現在の認識状態によらず認識停止状態(ステップ106a)に遷移する。このように、マイク3が移動している場合は、認識状態を認識停止状態にし、音声認識に関する処理を停止することにより、エコーキャンセルの失敗による音声認識の誤認識を防ぐことができる。一方、移動判定(ステップ101)で停止中と判断された場合は、現在状態判定(ステップ102)で現在の認識状態の判定を行なう。
FIG. 2 is an explanatory diagram showing an example of the recognition state transition determination.
In FIG. 2, in the transition determination, first, the movement state from the
現在状態判定(ステップ102)で現在の状態が認識停止状態であった場合は、引き続き認識停止状態(ステップ106a)とするか認識待ち状態(ステップ106b)に移行するかを待ち開始判定(ステップ103)で判定する。この待ち開始判定(ステップ103)では、移動停止となってからの経過時間が一定時間以上経過していれば認識待ち状態(ステップ106b)に移行すると判定する。これは、移動停止直後ではエコーキャンセラ6でのエコーパスの学習が終了していないため、エコーパスが学習するための時間経過後に認識待ち状態とするためである。 If the current state is a recognition stop state in the current state determination (step 102), whether to continue the recognition stop state (step 106a) or shift to the recognition wait state (step 106b) is determined to start waiting (step 103). ). In this waiting start determination (step 103), it is determined that the state shifts to the recognition waiting state (step 106b) if the elapsed time since the movement stop has elapsed for a certain time or more. This is because the learning of the echo path in the echo canceller 6 is not completed immediately after the movement is stopped, so that the recognition wait state is entered after the elapse of time for the echo path to learn.
また、現在状態判定(ステップ102)で現在の状態が認識待ち状態であった場合は、音声入力有無判定(ステップ104)で音声の入力があるか否かを判定し、音声の入力が無の状態であれば認識待ち状態(ステップ106b)とする。一方、音声入力が開始され、音声の入力が有の状態であれば、音声処理部5はエコーキャンセル、音声認識等の音声認識に関する処理を行う。
Also, if the current state is a recognition waiting state in the current state determination (step 102), it is determined whether or not there is a voice input in the voice input presence / absence determination (step 104), and there is no voice input. If it is in a state, it is set as a recognition waiting state (step 106b). On the other hand, if voice input is started and voice input is present, the
また、現在状態判定(ステップ102)で現在の状態が認識中状態であった場合は、音声処理部5はエコーキャンセル、音声認識等の音声認識に関する処理を行っている途中である。
If the current state is a recognizing state in the current state determination (step 102), the
認識継続判定(ステップ105)で音声認識に関する処理が継続するか否かを判定する。例えば音声の入力が現時点で終了していない場合は音声認識に関する処理を継続するものとし、認識状態を認識中状態(ステップ106c)とする。一方、音声の入力が終了したと判定した場合は、認識結果を出力し、認識待ち状態(ステップ106b)に移行する。 In the recognition continuation determination (step 105), it is determined whether or not the processing related to the voice recognition is continued. For example, if the input of voice has not ended at this time, the process related to voice recognition is continued, and the recognition state is set to the recognition state (step 106c). On the other hand, if it is determined that the voice input has been completed, the recognition result is output and the process proceeds to a recognition wait state (step 106b).
図2の認識状態の遷移では、認識中状態で音声発話が継続している場合でもマイクが移動していると判定されると認識が中断し認識停止状態に移行していたが、認識中の場合は認識を継続するようにしてもよい。 In the transition of the recognition state in FIG. 2, even if the voice utterance is continued in the recognition state, if it is determined that the microphone is moving, the recognition is interrupted and the recognition is stopped. In this case, recognition may be continued.
図3は、認識状態の遷移判定の一例であり、音声認識に関する処理を行っている時は、その処理を継続する場合の例を示す説明図である。なお、図2と同一又は同様の処理に同一の符号を付し、説明を省略する。 FIG. 3 is an example of the determination of the transition of the recognition state, and is an explanatory diagram showing an example of continuing the process when the process related to speech recognition is performed. In addition, the same code | symbol is attached | subjected to the same or similar process as FIG. 2, and description is abbreviate | omitted.
図3に示した認識状態の遷移判定の例は、図2に示した認識状態の遷移判定の例に対して、移動判定(ステップ101)の前に、現在状態判定(ステップ102b)を行い、現在状態が認識中状態であった場合には、移動判定(ステップ101)を行わずに音声認識に関する処理を行い、認識継続判定(ステップ105)行うようにしたものである。以後の判定方法は図2と同じであるが、現在状態判定(ステップ102a)では現在状態が認識中状態の場合は無い為、認識停止状態と認識待ち状態の判定のみになる。 The recognition state transition determination example shown in FIG. 3 performs the current state determination (step 102b) before the movement determination (step 101), compared to the recognition state transition determination example shown in FIG. If the current state is the recognizing state, the process relating to voice recognition is performed without performing the movement determination (step 101), and the recognition continuation determination (step 105) is performed. The subsequent determination method is the same as that in FIG. 2, but in the current state determination (step 102a), there is no case where the current state is in the recognition state, so only the recognition stop state and the recognition wait state are determined.
また図4は、認識状態の遷移判定の一例として、空間エコーの漏れ込み推定量が小さい時は認識停止を行わないようにし、さらに、すでに音声認識に関する処理を行っている時は認識停止を行いにくくする場合の例を示す説明図である。なお、前述の図と同一又は同様の処理に同一の符号を付し、説明を省略する。 As an example of recognition state transition determination, FIG. 4 does not stop recognition when the estimated amount of leakage of spatial echo is small, and further stops recognition when processing related to speech recognition has already been performed. It is explanatory drawing which shows the example in the case of making it difficult. In addition, the same code | symbol is attached | subjected to the process same as the above-mentioned figure, or description is abbreviate | omitted.
図4に示した認識状態の遷移判定の例は、図2に示した認識状態の遷移判定の例に対して、漏れ込み推定量判定(ステップ107)を追加し、空間エコーの漏れ込み推定量が大きいか否かを判定し、漏れ込み推定量が小さい場合には移動判定(ステップ101)を行わないようにしたものである。 The recognition state transition determination example shown in FIG. 4 adds a leak estimation amount determination (step 107) to the recognition state transition determination example shown in FIG. The movement determination (step 101) is not performed when the estimated leakage amount is small.
ここで、漏れ込み推定量判定(ステップ107)では、例えば以下の様な判定を行う。
(1)音声出力部1から出力されるオーディオ信号の信号レベルが高いにもかかわらず、マイク3に漏れ込んでくる空間エコーの量が小さい場合、例えばボリュームを絞っている場合や、ヘッドホンで聴いている場合など、オーディオ信号の信号レベルは高くてもマイク3に漏れ込む漏れ込み量は小さくなる。この様な場合で漏れ込み推定量が閾値(Plth)以下に収まると判断される場合には、漏れ込み推定量は小さいと判定する。
(2)音声出力部1から出力されるオーディオ信号が高く、マイク3に漏れ込みがある場合には、一時的にオーディオ信号の信号レベルが下がっていても信号レベルが上がった際にはマイク3に漏れ込む漏れ込み量は大きくなる。この様な場合で漏れ込み推定量が閾値(Plth)より大きくなると判断される場合は、漏れ込み推定量は大きいと判定する。
Here, in the leakage estimation amount determination (step 107), for example, the following determination is performed.
(1) Even when the signal level of the audio signal output from the audio output unit 1 is high, the amount of spatial echo leaking into the
(2) When the audio signal output from the audio output unit 1 is high and the
なお、漏れ込み推定量判定(ステップ107)では現在の認識状態により、閾値(Plth)を変更しても構わない。例えば、認識状態が認識中状態の場合でユーザの発話の途中で音声認識に関する処理を停止するケースを減らすため、認識中状態の場合は閾値(Plth)を高く設定するようにしてもよい。 In the leakage estimation amount determination (step 107), the threshold (Plth) may be changed according to the current recognition state. For example, the threshold (Plth) may be set higher in the recognition state in order to reduce the case where the process related to speech recognition is stopped during the user's utterance when the recognition state is the recognition state.
また図5は、認識状態の遷移判定の一例として、漏れ込み推定量による判定を行う場合でも、現在の認識状態が認識中状態の場合には、漏れ込み推定量判定、移動判定を行わないようにする場合の例を示す説明図である。なお、前述の図と同一又は同様の処理に同一の符号を付し、説明を省略する。 Further, FIG. 5 shows an example of the determination of the transition of the recognition state. Even when the determination based on the leakage estimation amount is performed, the leakage estimation amount determination and the movement determination are not performed when the current recognition state is the recognition state. It is explanatory drawing which shows the example in the case of making. In addition, the same code | symbol is attached | subjected to the process same as the above-mentioned figure, or description is abbreviate | omitted.
図5に示した認識状態の遷移判定の例は、図4に示した認識状態の遷移判定の例について、現在状態判定(ステップ102)を(ステップ102a)と(ステップ102b)の2箇所に分離し、現在状態判定(ステップ102b)で認識中状態と判定された場合には、音声認識に関する処理を継続して行うようにしたものである。 In the example of the recognition state transition determination shown in FIG. 5, the current state determination (step 102) is separated into two parts (step 102a) and (step 102b) in the example of the recognition state transition determination shown in FIG. However, if it is determined that the current state is being determined (step 102b), the process relating to voice recognition is continuously performed.
また図6は、認識状態の遷移判定の一例として、マイク3が移動中の場合でも、音声認識に関する処理を行っている場合には直ちに認識停止状態に移行しないようにするために、空間エコーの漏れ込みが音声認識に関する処理を継続してよいレベルか否かを判定し、音声認識の処理に問題なければ認識中状態のままとする場合の例を示す説明図である。なお、前述の図と同一又は同様の処理に同一の符号を付し、説明を省略する。
FIG. 6 shows an example of determination of the transition of the recognition state, so that even if the
図6に示した認識状態の遷移判定の例は、図4に示した認識状態の遷移判定の例について、現在状態判定(ステップ108)、認識停止判定(ステップ109)を追加したものである。マイク3が移動中の場合でも現在状態判定(ステップ108)で認識中状態と判定された場合には、認識停止判定(ステップ109)で認識継続、認識停止の判定を行うようにしたものである。認識停止判定(ステップ109)では、例えば、認識中の現在までの音声区間のうち、漏れ込み推定量が閾値以上となっている時間の割合が一定割合以上になったら認識を停止し、それ以外の場合は認識を継続すると判定する。
The recognition state transition determination example illustrated in FIG. 6 is obtained by adding a current state determination (step 108) and a recognition stop determination (step 109) to the recognition state transition determination illustrated in FIG. Even if the
以上のように本実施の形態によれば、スピーカ2から出力された音声の空間エコーを入力音声信号からキャンセルし、当該空間エコーをキャンセルした入力音声信号の音声認識をする音声処理を、加速度センサ6によって監視されたマイク3の移動状態に応じて実行する、特に、マイク3の移動状態に応じて音声処理の起動・停止を行うことにより、マイク3が移動してエコーパスが変わることによるエコーキャンセルの失敗で音声認識を誤認識することを抑えることができる。
なお、本実施の形態では、マイク3の移動状態に応じてエコーキャンセル、音声認識等の音声認識に関する処理の起動・停止を行うことについて説明したが、少なくとも音声認識の処理の起動・停止を行う構成であればよく、これにより、マイク3が移動してエコーパスが変わることによるエコーキャンセルの失敗で音声認識を誤認識することを抑えることができることは言うまでもない。
As described above, according to the present embodiment, the voice processing for canceling the spatial echo of the voice output from the
In the present embodiment, it has been described that the processes related to voice recognition such as echo cancellation and voice recognition are started / stopped according to the moving state of the
また、音声認識に関する処理を停止した後に待ち開始判定を行うことにより、エコーパスの学習に必要な時間を置いた後に音声認識に関する処理を起動するようにでき、音声認識の誤認識を抑えることができる。 In addition, by performing the waiting start determination after stopping the speech recognition processing, the speech recognition processing can be started after a time necessary for the learning of the echo path, and erroneous recognition of speech recognition can be suppressed. .
また、加速度センサによって監視されたマイクの移動状態に加え、現在の音声処理の状態に応じて、音声処理を実行すること、例えば、図3に示した認識状態の遷移判定例のように、音声認識に関する処理を行っている時は、直ちに認識停止状態とせずに、その処理を継続することにより、音声認識の誤認識を抑えつつ、発話中に音声認識に関する処理が停止することが減るのでユーザビリティが向上する。 Further, in addition to the moving state of the microphone monitored by the acceleration sensor, the voice processing is executed according to the current voice processing state, for example, as in the recognition state transition determination example shown in FIG. When processing related to recognition is performed, the processing is not immediately stopped, but the processing is continued, so that misrecognition of speech recognition is suppressed, and processing related to speech recognition is reduced during speech, thus reducing usability. Will improve.
また、加速度センサによって監視されたマイクの移動状態に加え、空間エコーの漏れ込み推定量に応じて、音声処理を実行すること、例えば、図4に示した認識状態の遷移判定例のように、まず空間エコーの漏れ込み推定量判定を行い、空間エコーの漏れ込み推定量が小さい場合はマイク3の移動状態によらず遷移判定をし、マイク3が移動中でも音声認識に関する処理を停止させないようにすることにより、マイク3が移動中でも音声認識の誤認識を起こしにくい場合は音声認識に関する処理を行えるのでユーザビリティが上がる。
Further, in addition to the movement state of the microphone monitored by the acceleration sensor, according to the estimated amount of leakage of the spatial echo, for example, as in the recognition state transition determination example illustrated in FIG. First, the estimated amount of leakage of spatial echo is determined. If the estimated amount of leakage of spatial echo is small, a transition determination is made regardless of the movement state of the
また、加速度センサによって監視されたマイクの移動状態に加え、現在の音声処理の状態、空間エコーの漏れ込み推定量に応じて、音声処理を実行すること、例えば、図5に示した認識状態の遷移判定例のように、空間エコーの漏れ込み推定量判定を行う場合でも、現在の認識状態が認識中状態の場合には、漏れ込み推定量判定、移動判定を行わないようにし、音声認識に関する処理を行っている時は、直ちに認識停止状態とせずに、その処理を継続することにより、音声認識の誤認識を抑えつつ、発話中に音声認識に関する処理が停止することが減るのでユーザビリティが向上する。 Further, in addition to the movement state of the microphone monitored by the acceleration sensor, the voice processing is executed according to the current voice processing state and the estimated amount of leakage of the spatial echo, for example, in the recognition state shown in FIG. Even when the spatial echo leakage estimation amount determination is performed as in the transition determination example, if the current recognition state is the recognition state, the leakage estimation amount determination and the movement determination are not performed, and the voice recognition is performed. When processing is performed, the process is not immediately stopped, but the process is continued, so that misrecognition of voice recognition is suppressed and processing related to voice recognition is reduced during speech, improving usability. To do.
また、加速度センサによって監視されたマイクの移動状態に加え、現在の音声処理の状態、空間エコーの漏れ込み推定量に応じて、音声処理を実行すること、例えば、図6に示した認識状態の遷移判定例のように、マイク3が移動中の場合でも、音声認識に関する処理を行っている場合には直ちに認識停止状態に移行しないようにするために、空間エコーの漏れ込みが音声認識に関する処理を継続してよいレベルか否かを判定し、音声認識に関する処理に問題なければ、その処理を継続することにより、マイク3が移動中の場合でも、音声認識の誤認識を抑えつつ、発話中に音声認識に関する処理が停止することが減るのでユーザビリティが向上する。
Further, in addition to the movement state of the microphone monitored by the acceleration sensor, the voice processing is executed in accordance with the current voice processing state and the estimated amount of leakage of the spatial echo, for example, in the recognition state shown in FIG. As in the transition determination example, even when the
なお、本実施の形態において、マイク3の移動状態に応じて音声認識に関する処理の起動・停止を行うことにより、マイク3の移動に影響されずに音声認識の処理ができればよく、エコーパス学習の開始タイミングは、マイク3の移動状態に応じてマイク3が停止してから開始するようにしても良いし、所定時間ごとに随時開始するようにしても良い。
In the present embodiment, it is only necessary that the speech recognition processing can be performed without being affected by the movement of the
また、本実施の形態においては、認識状態の遷移判定例として、認識状態が認識待ち状態であり、音声の入力が有った場合に、音声認識に関する処理を行う場合について説明したが、マイク3が移動状態から停止状態に移った際に、マイク3からの入力音声をバッファリングしておき、エコーパス学習が終了した後改めて停止状態に移行した時点からのエコーキャンセルおよび音声認識の処理を行うようにしても良い。このように停止状態では入力音声をバッファリングし、エコーパス学習後に改めてエコーキャンセルをしなおすことで、ユーザは移動停止直後の発話が可能になりユーザビリティが向上する。
In the present embodiment, as an example of determining the transition of the recognition state, a case has been described in which the recognition state is a recognition wait state, and when speech input is performed, processing related to speech recognition is performed. When the state shifts from the moving state to the stopped state, the input voice from the
また、本実施の形態においては、マイクの移動状態として、移動中又は停止中という状態に基づいて遷移判定を行う場合について説明したが、マイクが所定速度以上で移動している場合に移動中とみなし、所定速度未満で移動している場合に停止中とみなすようにしても良い。すなわち、マイクの移動速度がエコーキャンセルに失敗する程度の所定速度以上で移動している場合に移動中とみなし、マイクの移動速度がエコーキャンセルに失敗しない程度の所定速度未満で移動している場合に停止中とみなすようにしても良い。 Further, in the present embodiment, the case where the transition determination is performed based on the moving state or the stopped state as the moving state of the microphone has been described, but when the microphone is moving at a predetermined speed or more, Assuming that the vehicle is moving at a speed lower than a predetermined speed, it may be regarded as being stopped. In other words, when the moving speed of the microphone is higher than a predetermined speed at which echo cancellation fails, it is considered that the microphone is moving, and the moving speed of the microphone is lower than a predetermined speed at which echo cancellation fails. It may be considered that the vehicle is stopped.
実施の形態2.
本実施の形態2では、ユーザに対して現在の認識状態を通知する場合の実施の形態について説明する。
In the second embodiment, an embodiment in the case of notifying the user of the current recognition state will be described.
図7は、この発明を実施するための実施の形態2における音声認識装置を示すブロック図である。なお、図7において、図1と同一又は同様の部分については同一符号を付し、説明を省略する。ただし、音声処理部5は、前述の構成に加え、現在の音声処理の状態(認識状態)を出力するように構成されている。
認識状態通知部8は、音声処理部5で出力された音声処理の状態(認識状態)をユーザに対して通知する。例えば、認識状態として、認識停止状態、認識待ち状態、認識中状態のいずれであるかを通知する。
FIG. 7 is a block diagram showing a speech recognition apparatus according to
The recognition
次に動作について説明する。
音声処理部5が音声処理の状態(認識状態)を出力する。出力する音声処理の状態(認識状態)としては、例えば「認識待ち状態」、「認識停止状態」、「認識中状態」である。すると上記出力された音声処理の状態(認識状態)は、認識状態通知部7に入力され、当該認識状態通知部7は、上記音声処理の状態(認識状態)をユーザにわかるように通知する。
Next, the operation will be described.
The
例えば、音声認識装置のマイクをリモコンに取り付けたAV機器の場合、通知手法としては、例えば、AV機器本体のディスプレイ等の表示部に音声処理の状態(認識状態)を示すアイコン等を表示する。 For example, in the case of an AV device in which a microphone of a voice recognition device is attached to a remote control, as a notification method, for example, an icon indicating a voice processing state (recognition state) is displayed on a display unit such as a display of the AV device main body.
また例えば、音声認識装置のマイクをリモコンに取り付けたTVの場合は、TV画面にアイコン等を表示するようにしてもよい。
図8、図9は、この場合の通知例を示す説明図である。
例えば、リモコンが移動して音声認識に関する処理を停止する又は行わない状態(認識停止状態)になった際に図8のように画面隅に入力を受け付けていない旨を示すアイコンを表示し、音声認識に関する処理を行っている途中の状態(認識中状態)は図9のように画面隅に認識中である旨を示すアイコンを表示し、音声認識に関する処理を行うことが可能な状態(認識待ち状態)は表示なしとしてユーザに現在の音声認識状態を通知する。
For example, in the case of a TV in which the microphone of the voice recognition device is attached to the remote control, an icon or the like may be displayed on the TV screen.
8 and 9 are explanatory diagrams showing examples of notification in this case.
For example, when the remote controller moves and stops or does not perform processing related to voice recognition (recognition stopped state), an icon indicating that no input is accepted is displayed at the corner of the screen as shown in FIG. As shown in FIG. 9, an icon indicating that recognition is being performed is displayed at the corner of the screen as shown in FIG. Status) informs the user of the current voice recognition status as no display.
また、ユーザに対する音声処理の状態(認識状態)の通知手法としては、音声ガイダンスや、報知音を鳴らすことにより通知しても構わない。この場合は状態が切り替わる際に各音を出力する。また、表示と報知音の併用による通知でも構わない。 Moreover, as a notification method of the voice processing state (recognition state) to the user, notification may be made by sounding voice guidance or a notification sound. In this case, each sound is output when the state is switched. Moreover, the notification by the combined use of the display and the notification sound may be used.
以上のように本実施の形態によれば、音声処理の状態(認識状態)をユーザに通知する認識状態通知部を備えることにより、ユーザが音声処理の状態を把握出来る。このため、認識停止中状態にもかかわらずユーザが発話してしまい、音声認識結果に基づく動作が無反応という現象がなくなり、ユーザビリティが向上する。 As described above, according to the present embodiment, the user can grasp the state of the voice processing by providing the recognition state notification unit that notifies the user of the state (recognition state) of the voice processing. For this reason, the user utters regardless of the state in which the recognition is stopped, the phenomenon that the operation based on the voice recognition result does not react is eliminated, and usability is improved.
実施の形態3.
本実施形態3では、発話するタイミングをユーザが指定可能な場合の実施の形態をについて説明する。
In the third embodiment, an embodiment in the case where the user can specify the timing of speaking will be described.
図10は、この発明を実施するための実施の形態3における音声認識装置を示すブロック図である。図10は、前述の実施の形態2の構成に対し、ユーザが発話する際に音声認識に関する処理を開始するための発話スイッチ9を備えたものである。
発話スイッチ9は、ユーザからの指示に基づいて、音声処理部5の起動命令を出力する。例えば、ユーザからの指示を電気信号に変換し、その電気信号に基づいて音声処理部5の起動命令を出力する。
FIG. 10 is a block diagram showing a speech recognition apparatus according to
The speech switch 9 outputs an activation command for the
なお、図10において、前述の図と同一又は同様の部分については同一符号を付し、説明を省略する。ただし、音声処理部5は、前述の構成に加え、ユーザの指示に応じて、入力音声信号に対する音声処理を実行するように構成されており、ここでは、発話スイッチ9からの起動命令を受理し、当該起動命令に基づいて動作するように構成されている。
In FIG. 10, parts that are the same as or similar to those in the previous figures are given the same reference numerals, and descriptions thereof are omitted. However, the
次に動作について説明する。
ユーザが発話を開始する際に、発話スイッチ9を押すと、当該発話スイッチ9はユーザからの指示に基づいて、音声処理部5の起動命令を出力する。例えば、ユーザからの指示を電気信号に変換し、その電気信号に基づいて音声処理部5の起動命令を出力する。音声処理部5は、発話スイッチ9からの起動命令を受理すると、上記マイク3の移動状態および発話スイッチ9からの起動命令に基づいて処理を起動・停止する。ここでは、上記マイク3の移動状態および発話スイッチ9からの起動命令に基づいて、認識状態の遷移判定を行い、遷移判定の結果に応じて、音声処理を実施する。
Next, the operation will be described.
When the user starts speaking, when the user presses the speaking switch 9, the speaking switch 9 outputs an activation command for the
また、認識状態通知部8は、上記音声処理部5による認識状態の遷移判定の結果に基づいて音声処理の状態(認識状態)をユーザに対して通知する。ユーザは、音声処理の認識状態が、認識待ち状態になったことを確認した後、発話を開始する。
Further, the recognition
図11は、本実施の形態の認識状態の遷移判定の一例であり、音声処理部5が前述の構成に加え、発話スイッチ9からの起動命令に基づいて動作する場合の例を示す説明図である。なお、前述の図と同一又は同様の処理に同一の符号を付し、説明を省略する。
FIG. 11 is an example of recognition state transition determination according to the present embodiment, and is an explanatory diagram illustrating an example in which the
図11に示した認識状態の遷移判定の例は、図6に示した認識状態の遷移判定の例に対して、漏れ込み推定量判定(ステップ107)の前に、現在状態判定(ステップ110)を行い、現在の認識状態が認識中状態でない場合は、発話スイッチ状態の判定(ステップ111)を行うようにしたものである。発話スイッチを押してから一定時間内にユーザの発話が開始されなかった場合は、認識停止状態(ステップ106a)に移行し、発話スイッチを押してから一定時間内は、前述の図6に示した認識状態の遷移判定の例と同様に判定を行う。ただし、本実施の形態においては、発話スイッチ1回につき、認識1回とするために、認識終了後には認識待ち状態(ステップ106b)に戻らず認識停止状態(ステップ106a)となる。 The recognition state transition determination example shown in FIG. 11 is different from the recognition state transition determination example shown in FIG. 6 in the current state determination (step 110) before the leakage estimation amount determination (step 107). If the current recognition state is not the recognition state, the speech switch state determination (step 111) is performed. If the user's utterance is not started within a predetermined time after the utterance switch is pressed, the process proceeds to the recognition stop state (step 106a), and within the predetermined time after the utterance switch is pressed, the recognition state shown in FIG. The determination is performed in the same manner as the transition determination example. However, in this embodiment, since the recognition is performed once for each utterance switch, the recognition is stopped (step 106a) without returning to the recognition waiting state (step 106b) after completion of the recognition.
このように図11に示した認識状態の遷移判定の例では、発話スイッチを押してから一定時間内にユーザの発話が開始されなかった場合に認識停止状態(ステップ106a)なるようにし、発話スイッチを押してから一定時間内にユーザの発話が開始された場合は、ユーザ発話中(音声認識中)に一定時間を越えても音声認識に関する処理を継続するという動作にするため、漏れ込み推定量判定(ステップ107)の前に、発話スイッチの状態判定(押した後の時間判定を含む)と、現在状態判定を行う。 As described above, in the example of the transition determination of the recognition state shown in FIG. 11, when the user's utterance is not started within a certain time after the utterance switch is pressed, the recognition stop state (step 106a) is set, and the utterance switch is turned on. If the user's utterance is started within a certain period of time after the button is pressed, the leak estimation amount determination ( Before step 107), the state determination of the speech switch (including time determination after pressing) and the current state determination are performed.
以上のように本実施の形態によれば、発話スイッチ9を備えて、マイク3の移動状態に加えて、ユーザの指示による発話スイッチ9からの起動命令に応じて、音声処理を実行する、特に、エコーキャンセル、音声認識等の音声認識に関する処理の起動・停止を行うことにより、ユーザの認識を意図しない発話や雑音等により音声認識を誤認識することを抑えることができる。
As described above, according to the present embodiment, the speech switch 9 is provided, and in addition to the moving state of the
実施の形態4.
本実施の形態4では、音声処理部5がマイク3の移動状態に応じて音声処理を実行するものとして、エコーキャンセラがマイクの移動状態に応じてエコーパス学習を行う場合の実施の形態について説明する。
In the fourth embodiment, the case where the echo canceller performs echo path learning according to the moving state of the microphone will be described on the assumption that the
図12は、この発明を実施するための実施の形態4における音声認識装置を示すブロック図である。なお、図12において、前述の図と同一又は同様の部分については同一符号を付し、説明を省略する。ただし、エコーキャンセラ6は、前述の構成に加え、上記マイク3の移動状態に応じて、エコーパス学習を実行するように構成されている。例えば、上記マイク3の移動状態に応じて、エコーパス学習の係数を制御するように構成されている。例えば、学習の収束タイミング、学習の精度等のエコーパス学習の係数を変更する。また例えば、所定時間ごとにエコーパス学習を行う場合に、移動中はエコーパスの変動に追従するようにエコーパスの学習を早め、停止中はエコーパスの学習精度を上げるように構成されている。
FIG. 12 is a block diagram showing a speech recognition apparatus according to
以上のように本実施の形態によれば、マイク3の移動を監視し、マイク3の移動状態に応じてエコーパス学習を制御することにより、マイク3が移動していない時のエコーキャンセル精度を保ちつつ、移動速度が遅い時のエコーキャンセルが可能になり、移動速度が一定速度より遅い場合にも音声認識を行うことが可能になる。
As described above, according to the present embodiment, the movement of the
また、本実施の形態においては、マイクの移動状態として、移動中又は停止中という状態に基づいてエコーパスの学習を制御する場合について説明したが、マイクが所定速度以上で移動している場合に移動中とみなし、所定速度未満で移動している場合に停止中とみなすようにしても良い。 In the present embodiment, the case where the learning of the echo path is controlled based on the moving state or the stopped state is described as the moving state of the microphone. However, the moving is performed when the microphone is moving at a predetermined speed or more. It may be considered that the vehicle is stopped when it is moving at a speed lower than a predetermined speed.
この発明は、特定の用途に限定されるものではないが、例えば、音声認識装置のマイクを取り付けたAV機器、TV等のリモコンを実現する上で特に有用である。 Although the present invention is not limited to a specific application, it is particularly useful for realizing, for example, a remote controller such as an AV device or a TV to which a microphone of a voice recognition device is attached.
1 音声出力部、2 スピーカ、3 マイク、4 加速度センサ、5 音声処理部、6 エコーキャンセラ、7 音声認識部、8 認識状態通知部、9 発話スイッチ。 DESCRIPTION OF SYMBOLS 1 Voice output part, 2 Speaker, 3 Microphone, 4 Acceleration sensor, 5 Voice processing part, 6 Echo canceller, 7 Voice recognition part, 8 Recognition state notification part, 9 Speech switch
Claims (6)
視聴空間の音声を取り入れ、取り入れた入力音声の入力音声信号を出力するマイクと、
上記マイクの移動状態を監視する加速度センサと、
上記スピーカから出力された音声の空間エコーを上記入力音声信号からキャンセルし、当該空間エコーをキャンセルした入力音声信号の音声認識をする音声処理を、上記加速度センサによって監視されたマイクの移動状態に応じて実行する音声処理部と
を備えたことを特徴とする音声認識装置。 A speaker that outputs audio to the viewing space;
A microphone that takes the audio of the viewing space and outputs the input audio signal of the input audio,
An acceleration sensor for monitoring the moving state of the microphone;
The audio processing for canceling the spatial echo of the audio output from the speaker from the input audio signal and recognizing the audio of the input audio signal canceling the spatial echo depends on the moving state of the microphone monitored by the acceleration sensor. And a speech processing unit for executing the speech recognition.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005261782A JP2007072351A (en) | 2005-09-09 | 2005-09-09 | Speech recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005261782A JP2007072351A (en) | 2005-09-09 | 2005-09-09 | Speech recognition device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007072351A true JP2007072351A (en) | 2007-03-22 |
Family
ID=37933818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005261782A Pending JP2007072351A (en) | 2005-09-09 | 2005-09-09 | Speech recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007072351A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011033924A1 (en) * | 2009-09-17 | 2011-03-24 | ブラザー工業株式会社 | Echo removal device, echo removal method, and program for echo removal device |
JP2014003502A (en) * | 2012-06-19 | 2014-01-09 | Toshiba Corp | Signal processing device and signal processing method |
EP2723054A1 (en) * | 2012-10-19 | 2014-04-23 | BlackBerry Limited | Using an auxiliary device sensor to facilitate disambiguation of detected acoustic environment changes |
JP2015184487A (en) * | 2014-03-24 | 2015-10-22 | 株式会社東芝 | Voice processor and voice processing method |
-
2005
- 2005-09-09 JP JP2005261782A patent/JP2007072351A/en active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011033924A1 (en) * | 2009-09-17 | 2011-03-24 | ブラザー工業株式会社 | Echo removal device, echo removal method, and program for echo removal device |
JP2011066668A (en) * | 2009-09-17 | 2011-03-31 | Brother Industries Ltd | Echo canceler, echo canceling method, and program of echo canceler |
JP2014003502A (en) * | 2012-06-19 | 2014-01-09 | Toshiba Corp | Signal processing device and signal processing method |
EP2723054A1 (en) * | 2012-10-19 | 2014-04-23 | BlackBerry Limited | Using an auxiliary device sensor to facilitate disambiguation of detected acoustic environment changes |
US9131041B2 (en) | 2012-10-19 | 2015-09-08 | Blackberry Limited | Using an auxiliary device sensor to facilitate disambiguation of detected acoustic environment changes |
JP2015184487A (en) * | 2014-03-24 | 2015-10-22 | 株式会社東芝 | Voice processor and voice processing method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10789950B2 (en) | User dedicated automatic speech recognition | |
US10586534B1 (en) | Voice-controlled device control using acoustic echo cancellation statistics | |
US9953643B2 (en) | Selective transmission of voice data | |
US20090125299A1 (en) | Speech recognition system | |
JP5018773B2 (en) | Voice input system, interactive robot, voice input method, and voice input program | |
JP2005084253A (en) | Sound processing apparatus, method, program and storage medium | |
KR20160099640A (en) | Systems and methods for feedback detection | |
JP2007086977A (en) | Portable equipment | |
US11373635B2 (en) | Information processing apparatus that fades system utterance in response to interruption | |
JP2007072351A (en) | Speech recognition device | |
JP2011215421A (en) | Speech dialog apparatus | |
JP2014191029A (en) | Voice recognition system and method for controlling voice recognition system | |
JP2012073364A (en) | Voice interactive device, method, program | |
JP6569926B2 (en) | Speech input device, translation device, speech input method, and speech input program | |
JP2014240856A (en) | Voice input system and computer program | |
JP6599803B2 (en) | Utterance device | |
JP2006208486A (en) | Voice inputting device | |
WO2019142418A1 (en) | Information processing device and information processing method | |
JP2007508590A (en) | User adaptive dialogue support for spoken dialogue systems | |
JP5229217B2 (en) | Speech recognition system, method and program | |
CN110570881A (en) | method, apparatus, device and medium for switching back to voice mode in facsimile transparent transmission mode | |
JP2008122044A (en) | Controller for air conditioner | |
JP2003255987A (en) | Method, unit, and program for control over equipment using speech recognition | |
JP2008249893A (en) | Speech response device and its method | |
JP2009077186A (en) | Control system, control device and method, and program |