JP2006145791A - Speech recognition device and method, and mobile information terminal using speech recognition method - Google Patents
Speech recognition device and method, and mobile information terminal using speech recognition method Download PDFInfo
- Publication number
- JP2006145791A JP2006145791A JP2004335175A JP2004335175A JP2006145791A JP 2006145791 A JP2006145791 A JP 2006145791A JP 2004335175 A JP2004335175 A JP 2004335175A JP 2004335175 A JP2004335175 A JP 2004335175A JP 2006145791 A JP2006145791 A JP 2006145791A
- Authority
- JP
- Japan
- Prior art keywords
- transmission gain
- voice
- level
- speech
- amplifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は移動可能な状態で使用される音声認識装置に関する。特に、本発明は、送話時の使用状態に応じて入力した音声レベルを適切な音声レベルに増幅できないことに起因する認識率低下の防止を可能にする音声認識装置、方法及び音声認識方法を用いた携帯型情報端末装置に関する。 The present invention relates to a speech recognition apparatus used in a movable state. In particular, the present invention provides a speech recognition apparatus, method, and speech recognition method that can prevent a reduction in recognition rate due to an inability to amplify an input speech level according to a use state at the time of transmission to an appropriate speech level. The present invention relates to the portable information terminal device used.
近年、移動機である携帯電話機に音声認識機能が設けられ、携帯電話機では送話部のマイクロフォンから音声を入力し、適正な音声レベルに増幅後、音声認識を行い、認識結果を表示部に表示させ、スピーカから音声で鳴動させたりしている。
音声認識時には適正な音声レベルの音声信号を入力した場合に一番高い認識性能が得られるが、適正な音声レベルよりも低い場合でも高い場合でも認識率が低下する。
In recent years, mobile phones, which are mobile devices, have been equipped with a voice recognition function. In mobile phones, voice is input from the microphone of the transmitter, amplified to an appropriate voice level, voice recognition is performed, and the recognition result is displayed on the display. And sounding from the speaker.
At the time of voice recognition, the highest recognition performance can be obtained when a voice signal having an appropriate voice level is input, but the recognition rate is lowered regardless of whether it is lower or higher than the appropriate voice level.
このように音声認識機能を有する携帯電話機では、標準的な送話ゲインが保存され、以下のようにして、送話部のマイクロフォンの増幅器に設定される。
図16は本発明の前提となる携帯電話機における音声認識の使用例を説明する図である。
本図(a)に示すように、携帯電話機における受話部のスピーカをユーザの耳に密着した通話状態の持ち方で、音声認識が行われる。
Thus, in a mobile phone having a voice recognition function, a standard transmission gain is stored and set in the microphone amplifier of the transmission unit as follows.
FIG. 16 is a diagram for explaining an example of use of voice recognition in a mobile phone which is a premise of the present invention.
As shown in FIG. 5A, voice recognition is performed in a manner of holding a call state in which a speaker of a receiving unit in a mobile phone is in close contact with a user's ear.
この場合、携帯電話機の長さ、形状、ユーザの標準的な頭の大きさを基準とし携帯電話機の送話部のマイクロフォンとユーザの口の間の標準的な距離d1、標準的な声の大きさなどの条件で送話部のマイクロフォンの増幅器に標準的な送話ゲインGaが設定される。
しかしながら、実際には携帯電話機のユーザの携帯電話機の持ち方、頭の大きさ、声の大きさ等に関し、ユーザは同じ使用条件である、標準的な距離d1を確保せず、標準的な声の大きさで発声せず変動するため、ユーザの使用条件のバラツキが生じるので、送話部のマイクロフォンに入力する音声のレベルが変動し、増幅器に設定された標準的な送話ゲインGaで増幅された音声レベルが適正な音声レベルにならず、このため、音声の認識率が低下し、不具合が発生するという問題がある。
In this case, the standard distance d1 between the microphone of the transmitter of the mobile phone and the user's mouth, based on the length and shape of the mobile phone and the standard size of the user's head, and the standard loudness of the voice Under such conditions, a standard transmission gain Ga is set in the microphone amplifier of the transmission unit.
However, in practice, the user does not secure the standard distance d1, which is the same usage condition, in terms of how to hold the cellular phone, the size of the head, the volume of the voice, etc. Since the user's usage conditions vary, the voice level input to the microphone of the transmitter varies, and is amplified with the standard transmission gain Ga set in the amplifier. Therefore, there is a problem in that the voice level that is set does not become an appropriate voice level, and thus the voice recognition rate is lowered and a malfunction occurs.
本図(b)に示すように、携帯電話機における受話部をユーザの耳から離し携帯電話機の表示部を見ながら通話を行う状態で、音声認識が行われる。
この場合、携帯電話機における送話部のマイクロフォンとユーザの口の間の標準的な距離d2で標準的な音の大きさが適正な音声レベルになるように送話部のマイクロフォンの増幅器に標準的な送話ゲインGbが設定される。
As shown in FIG. 5B, voice recognition is performed in a state where a telephone call is made while the receiving unit of the mobile phone is separated from the user's ear and the display unit of the mobile phone is viewed.
In this case, it is standard for the microphone of the microphone of the transmitter so that the standard loudness becomes an appropriate voice level at a standard distance d2 between the microphone of the microphone of the portable phone and the user's mouth. A simple transmission gain Gb is set.
しかしながら、実際には携帯電話機における送話部のマイクロフォンとユーザの口の間の標準的な距離d2を確保できず距離のバラツキが生じ、標準的な音の大きさで発声せず変動し、さらに、距離が図16(a)の場合よりも大きいため騒音による影響を受けやすいため、マイクロフォンに入力する音声が変動し、増幅器に設定された標準的な送話ゲインGbで増幅された音声レベルが適正な音声レベルにならず、このため、音声の認識率が低下するという問題がある。 However, in practice, the standard distance d2 between the microphone of the transmitter in the mobile phone and the user's mouth cannot be ensured, resulting in a variation in distance, and fluctuations without speaking with the standard sound volume. Since the distance is larger than in the case of FIG. 16 (a), it is easily affected by noise, so that the voice input to the microphone fluctuates, and the voice level amplified by the standard transmission gain Gb set in the amplifier is There is a problem in that an appropriate voice level is not achieved and the voice recognition rate is lowered.
さらに、本図(a)に示すように携帯電話機をユーザの耳に密着する使用方法、本図(b)に示すように携帯電話機をユーザの耳から離す使用方法では、送話部のマイクロフォンとユーザの口の間の距離d1、d2が相互に大きく異なることに起因して、送話部のマイクロフォンの増幅器に設定される標準的な送話ゲインGa、Gbが相互に異なるので、本図(a)から本図(b)への使用方法の変化に対して、本図(a)に示す携帯電話機における送話部のマイクロフォンの増幅器に設定された標準的な送話ゲインGaを、本図(b)に示す携帯電話機における送話部のマイクロフォンの増幅器に設定される標準的な送話ゲインGbに設定変更をしなければならない。この設定変更をしないと、音声の認識率が著しく低下する。 Further, in the method of use in which the mobile phone is in close contact with the user's ear as shown in FIG. 5A, the method of use in which the mobile phone is separated from the user's ear as shown in FIG. Since the distances d1 and d2 between the user's mouths are greatly different from each other, standard transmission gains Ga and Gb set in the microphone amplifier of the transmission unit are different from each other. The standard transmission gain Ga set in the microphone amplifier of the transmission unit in the mobile phone shown in FIG. The setting change must be made to the standard transmission gain Gb set in the microphone amplifier of the transmission unit in the cellular phone shown in FIG. If this setting is not changed, the speech recognition rate is significantly reduced.
逆も同様であり、本図(b)から本図(a)への使用方法の変化に対して、本図(b)に示す携帯電話機における送話部のマイクロフォンの増幅器に設定された標準的な送話ゲインGbを、本図(a)に示す携帯電話機における送話部のマイクロフォンの増幅器に設定される標準的な送話ゲインGaに設定変更をしなければならない。この設定変更をしないと、音声の認識率が著しく低下する。 The reverse is also true, and the standard set in the microphone amplifier of the transmitter in the cellular phone shown in FIG. (B) with respect to the change in usage from FIG. (B) to FIG. (A). The transmission gain Gb must be changed to the standard transmission gain Ga set in the microphone amplifier of the transmission unit in the cellular phone shown in FIG. If this setting is not changed, the speech recognition rate is significantly reduced.
このため、本図(a)から本図(b)への使用方法の切替、本図(b)から本図(a)への使用方法の切替に関し、切替毎にマイクロフォンの増幅器の標準的な送話ゲインGa、Gbの設定変更をしなければならず、操作が煩雑となる。
換言すれば、本発明の前提となる音声認識機能には、携帯電話機のユーザの声の大きさ、使用方法が必ずしも想定している条件と一致しないので音声の認識率の低下が生じるという問題がある。
For this reason, with regard to the switching of the usage method from (a) to (b) in this figure and the switching from the usage method to (a) in this figure from (b) to (a), the standard of the microphone amplifier is changed at each switching. The settings of the transmission gains Ga and Gb must be changed, and the operation becomes complicated.
In other words, the voice recognition function which is the premise of the present invention has a problem that the voice recognition rate is lowered because the volume of the user of the mobile phone and the usage method do not necessarily match the assumed conditions. is there.
従来、通話中に自動的に受話音量を調節するため、レベル検出器は、送話音声信号の直流成分の電力値A1を検出及び算出し、減算器は、送話電力値A1とメモリに書き込まれている基準電力値A0とを減算して増幅量A2を算出し、メモリ部に一旦格納し、次のタイミングで受信音声信号が音声信号処理部を経由して、信号比較部内の増幅器に入力された時に、メモリ部から読み出した受話音声の増幅量A2を読み出して、増幅器の利得を可変制御し、A2倍だけ受信音声信号を増幅させ、これにより、送話音量によって、受話音量を可変調節できるものがある(例えば、特許文献1参照)。 Conventionally, in order to automatically adjust the reception volume during a call, the level detector detects and calculates the DC component power value A1 of the transmitted voice signal, and the subtractor writes the transmitted power value A1 and the memory. Amplification amount A2 is calculated by subtracting the reference power value A0, and temporarily stored in the memory unit. At the next timing, the received audio signal is input to the amplifier in the signal comparison unit via the audio signal processing unit. When this is done, the amplification amount A2 of the received voice read from the memory unit is read out, and the gain of the amplifier is variably controlled to amplify the received voice signal by A2 times, thereby variably adjusting the received volume according to the transmission volume. There is something that can be done (for example, see Patent Document 1).
しかしながら、上記特許文献1では、受話音量を調節するため、増幅量を算出し増幅器の利得を可変制御し算出した増幅量だけ受信音声信号を増幅させるが、前述のように、携帯電話機をユーザの耳に密着して使用する場合頭の大きさのバラツキ、ユーザの音声レベルのバラツキに起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず、さらに、携帯電話機をユーザの耳から離して使用する場合送話部のマイクロフォンと口の間の距離のバラツキ、騒音に起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず音声の認識率が低下するという問題を解決できず、さらに、携帯電話機を耳に密着した状態から耳から離した状態に使用方法を変えた場合、又はこの逆に携帯電話機を耳から離した状態から耳に密着した状態に使用方法を変えた場合、送話部のマイクロフォンの増幅器に設定すべき標準的な送話ゲインが異なるため、標準的な送話ゲインの設定変更を行う必要があり、操作が煩雑になるという問題を解決することができない。
However, in
また、従来、声の小さいあるいはマイクロホンから離れて発言する特定会議参加者の音声を他の会議参加者の音声出力レベルと同程度になるように出力されることにより受聴音声の品質の向上を図るため、複数個のマイクロホンとスピーカを用いてハンズフリーで遠隔会議を行う会議電話装置において、1または複数のマイクロホンより入力される音声信号を音声要素に分解する音声認識回路と、メモリ回路と、予め前記1または複数のマイクロホンより入力される特定会話者の音声認識回路の出力をメモリ回路に記憶するための手段と、遠隔会議時の音声認識回路の出力とメモリ回路に記憶されている内容とを照合する照合回路と、1または複数のマイクロホン対応に設けられた1または複数の利得設定回路と、照合回路によって特定会話者の音声と認識されたとき特定会話者の音声が入力されているマイクロホン対応の利得設定回路の利得を上昇制御する手段とを設けているものがある(例えば、特許文献2参照)。 Conventionally, the quality of the listening sound is improved by outputting the voice of a specific conference participant whose voice is low or speaking away from the microphone so as to be the same level as the voice output level of other conference participants. Therefore, in a conference telephone device that performs a hands-free remote conference using a plurality of microphones and speakers, a speech recognition circuit that decomposes a speech signal input from one or more microphones into speech elements, a memory circuit, Means for storing in the memory circuit the output of the voice recognition circuit of the specific talker inputted from the one or more microphones, and the output of the voice recognition circuit during the remote conference and the contents stored in the memory circuit. A specific conversation using a matching circuit for matching, one or more gain setting circuits provided for one or more microphones, and a matching circuit There are those provided with means for increasing control the gain of the microphone corresponding gain setting circuit voice of a particular conversation who is input when the voice recognition (for example, see Patent Document 2).
しかしながら、上記特許文献2では、声の小さいあるいはマイクロホンから離れて発言する特定会議参加者の音声を他の会議参加者の音声出力レベルと同程度になるように出力されるようにするが、前述のように、携帯電話機をユーザの耳に密着して使用する場合頭の大きさのバラツキ、ユーザの音声レベルのバラツキに起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず、さらに、携帯電話機をユーザの耳から離して使用する場合送話部のマイクロフォンと口の間の距離のバラツキ、騒音に起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず音声の認識率が低下するという問題を解決できず、さらに、携帯電話機を耳に密着した状態から耳から離した状態に使用方法を変えた場合、又はこの逆に携帯電話機を耳から離した状態から耳に密着した状態に使用方法を変えた場合、送話部のマイクロフォンの増幅器に設定すべき標準的な送話ゲインが異なるため、標準的な送話ゲインの設定変更を行う必要があり、操作が煩雑になるという問題を解決することができない。
However, in the above-mentioned
また、従来、自動車電話で、ハンドフリー通話時に、外部騒音の大きさが変化しても自動的に音量レベルが調整でき、明瞭な対話が行えるハンドフリー自動車電話装置を得るため、無線機と、この無線機に会話音声を供給するハンドフリー通話回路と、このハンドフリー通話回路に会話音声を入力するマイクロホンと、ハンドフリー通話回路より会話音声を出力するスピーカと、相手先名が音声にて入力された時、音声認識処理を行い、認識結果により上記無線機に発呼を指令する音声認識装置とを備えたハンドフリー自動車電話装置において、ハンドフリー通話時に音声認識装置により検出された騒音データによってマイクロホンより入力される入力音声レベルとスピーカより出力する会話音声の音量の少なくとも1つを自動的に調節するようにしたのもがある(例えば、特許文献3参照)。 In addition, conventionally, in order to obtain a hand-free car phone device that can automatically adjust the volume level even if the amount of external noise changes during a hands-free call with a car phone and can perform a clear dialogue, A hand-free call circuit that supplies conversational voice to this radio, a microphone that inputs conversational voice to this hand-free call circuit, a speaker that outputs conversational voice from the hand-free call circuit, and the other party's name are input by voice In a hands-free car telephone device having a voice recognition device that performs voice recognition processing and instructs the radio device to make a call according to a recognition result, according to noise data detected by the voice recognition device during a hand-free call. Automatically adjust at least one of the input voice level input from the microphone and the volume of the conversation voice output from the speaker Also that it was Unishi (e.g., see Patent Document 3).
しかしながら、上記特許文献3では、自動車電話で、ハンドフリー通話時に、外部騒音の大きさが変化しても自動的に音量レベルが調整でき、明瞭な対話が行えるようにしているが、前述のように、携帯電話機をユーザの耳に密着して使用する場合頭の大きさのバラツキ、ユーザの音声レベルのバラツキに起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず、さらに、携帯電話機をユーザの耳から離して使用する場合受話部のマイクロフォンと口の間の距離のバラツキ、騒音に起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず音声の認識率が低下するという問題を解決できず、さらに、携帯電話機を耳に密着した状態から耳から離した状態に使用方法を変えた場合、又はこの逆に携帯電話機を耳から離した状態から耳に密着した状態に使用方法を変えた場合、送話部のマイクロフォンの増幅器に設定すべき標準的な送話ゲインが異なるため、標準的な送話ゲインの設定変更を行う必要があり、操作が煩雑になるという問題を解決することができない。
However, in the above-mentioned
また、従来、入力電話音声のパワーレベルの変化に拘わらず、その語頭、語尾切れや飽和を招来することなしに入力電話音声の音声区間を正しく検出することができ、入力電話音声に対する認識性能の向上を図るため、電話回線を介して入力される電話音声に所定の増幅利得を与える前置増幅器と、この前置増幅器を介して入力される上記電話音声の音声区間を検出し、この音声区間における前記電話音声の特徴を検出して該電話音声を認識する音声認識部と、この音声認識結果に従って所定の応答音声を前記電話回線に送出する音声応答部と、前記音声認識および音声応答の過程で前記電話回線を介して最初に入力された電話音声のパワーレベルを検出する手段と、この検出されたパワーレベルに従って前記増幅器における増幅利得を設定する手段とを具備する音声入力装置がある(例えば、特許文献4参照)。 Also, conventionally, it is possible to correctly detect the voice section of the input telephone voice without incurring the beginning, ending or saturation of the input telephone voice regardless of the change in the power level of the input telephone voice. For the purpose of improvement, a preamplifier for giving a predetermined amplification gain to telephone voice input via a telephone line, and a voice section of the telephone voice input via the preamplifier are detected. A voice recognition unit for detecting a feature of the telephone voice and recognizing the telephone voice, a voice response part for sending a predetermined response voice to the telephone line according to the voice recognition result, and a process of the voice recognition and voice response Means for detecting the power level of the first telephone voice input via the telephone line and setting the amplification gain in the amplifier according to the detected power level A voice input device having a that means (e.g., see Patent Document 4).
しかしながら、上記特許文献4では、電話音声のパワーレベルを検出し、検出されたパワーレベルに従って増幅器における増幅利得を設定し、入力電話音声の音声区間を正しく検出し、入力電話音声に対する認識性能の向上を図るが、前述のように、携帯電話機をユーザの耳に密着して使用する場合頭の大きさのバラツキ、ユーザの音声レベルのバラツキに起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず、さらに、携帯電話機をユーザの耳から離して使用する場合送話部のマイクロフォンと口の間の距離のバラツキ、騒音に起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず音声の認識率が低下するという問題を解決できず、さらに、携帯電話機を耳に密着した状態から耳から離した状態に使用方法を変えた場合、又はこの逆に携帯電話機を耳から離した状態から耳に密着した状態に使用方法を変えた場合、送話部のマイクロフォンの増幅器に設定すべき標準的な送話ゲインが異なるため、標準的な送話ゲインの設定変更を行う必要があり、操作が煩雑になるという問題を解決することができない。
However, in
また、従来、緊急通報機能付き自動車電話装置において、利用者の送話音声を確実に緊急通報センターに伝えるため、交通事故等の緊急事態が生じた場合に、マイクロコンピュータが、乗員から発せられる送話レベルが、所定値未満であることを判定したとき、通常状態より送話ゲインを上げてマイクからの出力信号を電力増幅させる処理を行い、したがって、ゲインコントロールアンプは、自動的に、通常状態よりも大きな電力レベルで出力信号を出力できるため、基地局に対して上り通信信号を通常状態に比べて大きな電力レベルで送ることができ、このため、乗員の送話音声を確実にサービスセンターのオペレータに対して伝えることができるものがある(例えば、特許文献5参照)。 Conventionally, in an automobile telephone device with an emergency call function, in order to reliably transmit the user's transmitted voice to the emergency call center, a microcomputer is sent from the passenger in the event of an emergency such as a traffic accident. When it is determined that the talk level is less than the predetermined value, the transmission gain is increased from the normal state and the output signal from the microphone is amplified. Therefore, the gain control amplifier automatically performs the normal state. The output signal can be output at a higher power level, so that the uplink communication signal can be sent to the base station at a higher power level than in the normal state. There is something that can be communicated to the operator (see, for example, Patent Document 5).
しかしながら、上記特許文献5では、交通事故等の緊急事態が生じた場合に、通常状態より送話ゲインを上げてマイクからの出力信号を電力増幅させる処理を行い、乗員の送話音声を確実にサービスセンターのオペレータに対して伝えるが、前述のように、携帯電話機をユーザの耳に密着して使用する場合頭の大きさのバラツキ、ユーザの音声レベルのバラツキに起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず、さらに、携帯電話機をユーザの耳から離して使用する場合受話部のマイクロフォンと口の間の距離のバラツキ、騒音に起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルにならず音声の認識率が低下するという問題を解決できず、さらに、携帯電話機を耳に密着した状態から耳から離した状態に使用方法を変えた場合、又はこの逆に携帯電話機を耳から離した状態から耳に密着した状態に使用方法を変えた場合、送話部のマイクロフォンの増幅器に設定すべき標準的な送話ゲインが異なるため、標準的な送話ゲインの設定変更を行う必要があり、操作が煩雑になるという問題を解決することができない。
However, in the above-mentioned
したがって、本発明は上記問題点に鑑みて、携帯型情報端末装置の使用状態に応じて入力した音声レベルを適切な音声レベルに増幅し、認識率低下の防止を可能にする音声認識装置、方法及び音声認識方法を用いた携帯型情報端末装置を提供することを目的とする。 Therefore, in view of the above problems, the present invention amplifies a voice level input according to a usage state of a portable information terminal device to an appropriate voice level, and enables a speech recognition apparatus and method capable of preventing a reduction in recognition rate. It is another object of the present invention to provide a portable information terminal device using the voice recognition method.
本発明は前記問題点を解決するために、送話部のマイクロフォンに入力する音声を認識する音声認識装置において、送話部の前記マイクロフォンから出力される音声信号を送話ゲインで増幅する増幅器と、前記増幅器で増幅された音声レベルを検出する音声レベル検出部と、送話ゲインの初期値、送話ゲイン、適正音声レベル、送話ゲインを更新するための時定数を記憶する送話ゲイン情報記憶部と、前記送話ゲイン情報記憶部から送話ゲイン、適正音声レベル、時定数を読み出し、前記増幅器に前記送話ゲインを設定し、前記音声レベル検出部で検出された音声レベルを前記適正音声レベルにすべきゲインに前記時定数を乗じた値を前記送話ゲインに加算して前記送話ゲインを更新し、更新した前記送話ゲインを前記送話ゲイン情報記憶部に記憶させる送話ゲイン設定制御部と、前記増幅器で増幅された音声信号を入力して音声認識を行う音声認識部とを備えることを特徴とする音声認識装置を提供する。 In order to solve the above problems, the present invention provides a speech recognition apparatus for recognizing speech input to a microphone of a transmitter, and an amplifier that amplifies a speech signal output from the microphone of the transmitter by a transmission gain. A voice level detector for detecting a voice level amplified by the amplifier; and transmission gain information for storing an initial value of a transmission gain, a transmission gain, an appropriate voice level, and a time constant for updating the transmission gain. Read the transmission gain, appropriate voice level, and time constant from the storage unit and the transmission gain information storage unit, set the transmission gain to the amplifier, and set the voice level detected by the voice level detection unit to the appropriate level. A value obtained by multiplying a gain to be a voice level by the time constant is added to the transmission gain to update the transmission gain, and the updated transmission gain is stored in the transmission gain information storage unit. A transmission gain setting control unit to be stored, to provide a speech recognition apparatus characterized by comprising a voice recognition unit for performing voice recognition by entering the amplified audio signal at the amplifier.
さらに、前記送話ゲイン設定制御部は、音声認識時の第1回目の発声時に前記送話ゲイン情報記憶部から前記送話ゲインの初期値を読み出し前記増幅器に設定する。
さらに、前記送話ゲイン設定制御部は、前記送話ゲイン情報記憶部に更新された送話ゲインが記憶されている場合には、音声認識の再開時の第1回目の発声時に前記送話ゲイン情報記憶部から更新された前記送話ゲインを読み出し前記増幅器に設定する。
Further, the transmission gain setting control unit reads an initial value of the transmission gain from the transmission gain information storage unit and sets it in the amplifier during the first utterance during speech recognition.
Further, the transmission gain setting control unit, when the updated transmission gain is stored in the transmission gain information storage unit, the transmission gain at the first utterance when the speech recognition is resumed. The updated transmission gain is read from the information storage unit and set in the amplifier.
さらに、前記送話ゲイン設定制御部は、音声認識時の第1回目の発声時に前記送話ゲイン情報記憶部から前記送話ゲインの初期値を読み出し前記増幅器に設定し前記音声認識部に音声認識を行わせ、音声の認識確定後から所定時間内に音声認識の起動が検出された場合には前記送話ゲイン情報記憶部から送話ゲインの初期値を読み出し前記増幅器に設定し、取得した音声レベル情報に基づき前記送話ゲインの初期値を更新し前記送話ゲイン情報記憶部に保存し、又は前記送話ゲイン情報記憶部から更新前の送話ゲインを読み出し前記増幅器に設定し、取得した音声レベル情報に基づき前記送話ゲインを更新し、前記送話ゲイン情報記憶部に保存し、次回の発声時に更新した送話ゲインを前記送話ゲイン情報記憶部から読み出し前記増幅器に設定し、所定時間内に音声認識の起動が検出されない場合には音声認識処理を終了させる。 Further, the transmission gain setting control unit reads the initial value of the transmission gain from the transmission gain information storage unit at the time of the first utterance at the time of speech recognition, sets the initial value of the transmission gain in the amplifier, and performs speech recognition on the speech recognition unit. If the activation of speech recognition is detected within a predetermined time after the speech recognition is confirmed, the initial value of the transmission gain is read from the transmission gain information storage unit, set in the amplifier, and the acquired speech Based on the level information, the initial value of the transmission gain is updated and stored in the transmission gain information storage unit, or the transmission gain before update is read from the transmission gain information storage unit, set in the amplifier, and acquired. The transmission gain is updated based on voice level information, stored in the transmission gain information storage unit, and the updated transmission gain at the next utterance is read from the transmission gain information storage unit and set in the amplifier. And, if the activation of the voice recognition is not detected within the predetermined time to end the speech recognition process.
さらに、前記送話ゲイン設定制御部は、前記送話ゲイン情報記憶部で検出された音声レベルが前記適正音声レベルを中心とする一定範囲内に在るか又は一定範囲外に在るかを判断し、一定範囲内に在る場合の時定数を一定範囲外に在る場合の時定数よりも小さくする。
さらに、前記送話ゲイン設定制御部で更新される送話ゲインGnは、下記の式
Gn=Gn-1−K×20×log(Xn/C)dB
(K:送話ゲインの更新の時定数(0.0<K≦1.0)、
n:音声認識回数(=1,2、3…)、
C:適正音声レベル、
Xn:音声レベル検出部で検出された音声レベル)
で表される。
Further, the transmission gain setting control unit determines whether the voice level detected by the transmission gain information storage unit is within a certain range centered on the appropriate voice level or outside the certain range. Then, the time constant when it is within the certain range is made smaller than the time constant when it is outside the certain range.
Further, the transmission gain Gn updated by the transmission gain setting control unit is expressed by the following equation: Gn = Gn-1−K × 20 × log (Xn / C) dB
(K: Time constant for updating transmission gain (0.0 <K ≦ 1.0),
n: Number of voice recognition (= 1, 2, 3 ...),
C: Appropriate audio level,
Xn: voice level detected by the voice level detector
It is represented by
さらに、テスト部が設けられ、前記テスト部は、キー操作による時定数を調整可能にし、複数回のテスト用の発声に対して前記音声認識部に音声認識を処理させ、前記送話ゲイン設定制御部に送話ゲインの最適値を予め求めさせ、前記送話ゲイン情報記憶部に送話ゲインの初期値として保存させる。
さらに、本発明は、送話部のマイクロフォンに入力する音声を認識する音声認識方法において、適正音声レベル、送話ゲインを記憶する工程と、送話部の前記マイクロフォンから出力される音声信号を前記送話ゲインで増幅する工程と、増幅された音声レベルを検出する工程と、検出された前記音声レベルを前記適正音声レベルにすべきゲインに時定数を乗じた値を前記送話ゲインに加算して前記送話ゲインを更新し更新した送話ゲインを記憶する工程と、増幅された音声信号を入力して音声認識を行う工程とを備えることを特徴とする音声認識方法を提供する。
Further, a test unit is provided, and the test unit can adjust a time constant by a key operation, allows the voice recognition unit to process voice recognition for a plurality of test utterances, and controls the transmission gain setting control. The optimum value of the transmission gain is obtained in advance in the transmission gain information storage unit and stored as the initial value of the transmission gain in the transmission gain information storage unit.
Furthermore, the present invention relates to a speech recognition method for recognizing speech input to a microphone of a transmitter, a step of storing an appropriate speech level and transmission gain, and a speech signal output from the microphone of the transmitter Amplifying with transmission gain, detecting the amplified audio level, and adding a value obtained by multiplying the detected audio level to the appropriate audio level by a time constant to the transmission gain. A speech recognition method comprising: updating the transmission gain and storing the updated transmission gain; and inputting the amplified speech signal to perform speech recognition.
さらに、本発明は、音声認識方法を用いた携帯型情報端末装置において、前記携帯型情報端末装置の携帯情報端末機能に加えて、携帯型情報端末装置の使用状態に応じて入力した音声レベルを適切な音声レベルに増幅して音声認識を行う音声認識機能を備える。
さらに、音声認識された認識結果を前記携帯型情報端末装置の受話口のスピーカに鳴動させ、前記携帯型情報端末装置の表示部に表示させる。
Furthermore, the present invention provides a portable information terminal device using a voice recognition method, wherein, in addition to the portable information terminal function of the portable information terminal device, the voice level input according to the usage state of the portable information terminal device. A voice recognition function for performing voice recognition by amplifying to an appropriate voice level is provided.
Furthermore, the recognition result recognized by voice is sounded on the speaker of the earpiece of the portable information terminal device and displayed on the display unit of the portable information terminal device.
以上説明したように、本発明によれば、送話部の前記マイクロフォンから出力される音声信号を前記送話ゲインで増幅された音声信号を入力して音声認識を行うようにし、増幅した音声信号の音声レベルを検出し、検出された音声レベルを適正音声レベルにすべきゲインに時定数を乗じた値を送話ゲインに加算して送話ゲインを更新し、更新した送話ゲインを記憶させるようにしたので、特に携帯型情報端末装置の送話部の使用状態に応じて入力した音声レベルを適切な音声レベルに増幅し、認識率低下の防止が可能になる。 As described above, according to the present invention, an audio signal output from the microphone of the transmission unit is input with the audio signal amplified by the transmission gain to perform audio recognition, and the amplified audio signal The voice level is detected, and the transmission gain is updated by adding the value obtained by multiplying the detected voice level to the appropriate voice level by the time constant to the transmission gain, and the updated transmission gain is stored. Since it did in this way, especially the audio | voice level input according to the use condition of the transmission part of a portable information terminal device is amplified to an appropriate audio | voice level, and it becomes possible to prevent a recognition rate fall.
携帯型情報端末装置をユーザの耳に密着して使用する場合頭の大きさのバラツキ、ユーザの音声レベルのバラツキに起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルになり、さらに、携帯型情報端末装置をユーザの耳から離して使用する場合受話部のマイクロフォンと口の間の距離のバラツキに起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルになり、音声の認識率が向上し、さらに、携帯型情報端末装置を耳に密着した状態から耳から離した状態に使用方法を変えた場合、又はこの逆に携帯型情報端末装置を耳から離した状態から耳に密着した状態に使用方法を変えた場合、自動的に送話ゲインの設定変更が行われ、従来のように送話ゲインの設定変更を行う必要がなくなり、操作が簡単になる。 When the portable information terminal device is used in close contact with the user's ear, the sound level amplified by the microphone amplifier of the transmitter is appropriate due to the variation in the head size and the variation in the user's voice level. Furthermore, when the portable information terminal device is used away from the user's ear, the sound level amplified by the microphone amplifier of the transmitter due to the variation in the distance between the microphone of the receiver and the mouth Becomes an appropriate voice level, the speech recognition rate is improved, and the portable information terminal device is changed from the state of being in close contact with the ear to the state of being separated from the ear, or vice versa. When the usage method is changed from a state in which the terminal device is away from the ear to a state in which the terminal device is in close contact with the ear, the transmission gain setting is automatically changed, and it is necessary to change the transmission gain setting as before. Eliminated, operation is simplified.
以下、本発明の実施の形態について図面を参照して説明する。
図1は本発明に係る携帯型情報端末装置の概略構成を示すブロック図である。本図に示すように、移動機である携帯型情報端末装置100にはアンテナ101が設けられ、アンテナ101は図示しない基地局と無線通信を行う。
アンテナ101には無線部102が接続され、無線部102はアンテナ101への送信信号の変調を行い、アンテナ101からの受信信号の復調を行う。
Embodiments of the present invention will be described below with reference to the drawings.
FIG. 1 is a block diagram showing a schematic configuration of a portable information terminal device according to the present invention. As shown in the figure, an
A
無線部102には制御部103が接続され、制御部103は無線部102を含む携帯型情報端末装置100全体の制御を行う。
制御部103には操作部104が接続され、操作部104はCPU(中央演算装置)からなり、携帯電話の操作、音声認識の開始等を行う。制御部103は操作部104により音声認識の開始キーが押下されると、後述する音声認識部111に対して音声認識の開始命令を送信する。
A
An
さらに、制御部103には表示部105が接続され、表示部105は数字、文字、画像、音声認識の認識結果等を表示する。
さらに、制御部103にはメモリ106が接続され、メモリ106はデータ書き替え可能で携帯型情報端末装置100を制御する各種情報、送受信データを保存する。
さらに、制御部103にはA/D・D/Aコンバータ107が接続され、A/D・D/Aコンバータ107は制御部103への送話音の音声信号をアナログ信号からデジタル信号に変換し、制御部103からの受話音の音声信号をデジタル信号からアナログ信号に変換する。
Further, a
Further, a
Further, an A / D / D /
A/D・D/Aコンバータ107には増幅器(アンプ)108が接続され、増幅器108は後述する送話ゲイン設定制御部103Bにより送話ゲインが設定されると増幅率を変えて感度を調整し、後述するマイクロフォン109からのアナログ信号である音声信号を増幅する。
増幅器108には送話部のマイクロフォン109が接続され、マイクロフォン109はユーザの送話音を入力し電気信号に変換しアナログ信号の音声信号として増幅器108に出力する。
An amplifier (amplifier) 108 is connected to the A / D / D /
The
A/D・D/Aコンバータ107には受話部のスピーカ110が接続され、スピーカ110はA/D・D/Aコンバータ107から受話音のアナログ信号の電気信号を受信し電気信号を受話音に変換して受話音を鳴動し、特に音声認識の認識結果を鳴動する。
制御部103には音声認識部111が接続され、音声認識部111はDSP(Digital Signal Processor)のLSI(大規模集積回路)からなり、マイクロフォン109からの音声信号を増幅器108で増幅し、A/D・D/Aコンバータ107でデジタル化し、制御部103を経由して入力した音声データに関し、音声認識処理を行い、制御部103を介して、音声認識の認識結果を表示部105に表示させ、音声認識時の開始音、音声認識の認識結果を音声でスピーカ110に鳴動させる。
The A / D / D /
A
メモリ106には送話ゲイン情報記憶部106Aが設けられ、送話ゲイン情報記憶部106Aは音声認識時に増幅器108への送話ゲインを最適化するための各種情報として送話ゲイン初期値(dB)、更新した送話ゲイン、音声認識の適正音声レベル、送話ゲインの更新用の時定数等を保存する。
制御部103には音声レベル検出部103Aが設けられ、音声レベル検出部103Aは、常に音声認識時に、送話部のマイクロフォン109からの音声信号が増幅器108で増幅され、A/D・D/Aコンバータ107で音声データにデジタル化され制御部103に入力した後に音声データから音声区間を検出し送話音の音声信号の音声レベルを検出する。
The
The
制御部103には送話ゲイン設定制御部103Bが設けられ、送話ゲイン設定制御部103Bは、音声認識時に、送話ゲイン情報記憶部106Aに保持される各種情報を用い、さらに、送話ゲイン設定制御部103Bで検出される音声レベルを用いて、次回の音声認識に対して音声レベルと適性音声レベルから求めたゲインに時定数を乗じ、前回の音声認識時に求めた送話ゲインに加算した値を新しい送話ゲインの値として更新する。
The
さらに、送話ゲイン設定制御部103Bは、次回の音声認識時に前回の音声認識時に求めた送話ゲインを増幅器108に設定する。
上記で説明した送話ゲイン設定制御部103Bで行う送話ゲインの更新式を以下に説明する。
マイクロフォン109に入力される音声レベルをAn、音声レベル検出部103Aに検出される音声レベルをXn、適正な音声レベルをCと置き、送話ゲインGnの更新式を下記式により表す。
Furthermore, the transmission gain
The transmission gain update formula performed by the transmission gain
The voice level input to the
Gn=Gn-1−K×20×log(Xn/C)dB
…(1)
(K:送話ゲインの更新の時定数(0.0<K≦1.0)、
n:音声認識回数(=1,2、3…))
Xn=An×10Gn−1/20 …(2)
Gn = Gn-1 -K * 20 * log (Xn / C) dB
... (1)
(K: Time constant for updating transmission gain (0.0 <K ≦ 1.0),
n: Number of voice recognition (= 1, 2, 3 ...))
Xn = An * 10 Gn-1 / 20 (2)
このように、次回の音声認識起動時は、前回の音声認識結果の音声レベルを反映した送話ゲインを増幅器108に設定することになるため、ユーザの声の大きさ、使用方法が想定している条件に応じて、音声認識に適した音声レベルが得られる。
Thus, when the next speech recognition is activated, the transmission gain reflecting the speech level of the previous speech recognition result is set in the
図2は図1における送話ゲイン情報記憶部106Aに保持され、音声認識時に送話ゲインを最適化するための各種情報例を説明する図である。
FIG. 2 is a diagram for explaining various examples of information for optimizing the transmission gain at the time of speech recognition, held in the transmission gain
本図に示すように、送話ゲイン情報記憶部106Aには、ユーザの口と携帯型情報端末装置100における送話部のマイクロフォン109の間の距離d1(図16(a)参照)が3cmである場合、又は距離d2(図16(b)参照)が7cmである場合一方を選択して基準として送話ゲインの初期値G0として「0.00dB」が保持され、さらに、更新される送話ゲイン(dB)が保持される。この更新される送話ゲインは次回の音声認識時に増幅器108に設定される値として使用される。
As shown in this figure, in the transmission gain
さらに、送話ゲイン情報記憶部106Aには音声認識の適正音声レベルCが保存され、適正音声レベルCとして、例えば、「1000」が保持され、送信ゲインを更新する時定数Kが保存され、時定数Kとして選択可能に複数の「1.0」、「0.5」、…が保持される。
図3は図1における送話ゲイン設定制御部103Bの送話ゲインの更新処理の一連の動作例を説明するフローチャートである。
本図に示すように、ステップ201において、制御部103は操作部104の音声認識開始キー押下を検出し音声認識が起動されるのを検出する。
Further, the transmission gain
FIG. 3 is a flowchart for explaining a series of operation examples of transmission gain update processing of the transmission gain
As shown in the figure, in
ステップ202において、送話ゲイン設定制御部103Bは、制御部103の起動検出後、送話ゲイン情報記憶部106Aから更新前の送話ゲインGn-1を読み出し増幅器108に設定を行う。送話ゲイン設定制御部103Bに更新前の送話ゲインが保持されていない場合には送話ゲインの初期値を増幅器108に設定する。
ステップ203において、制御部103は送話ゲイン設定制御部103Bが更新前の送話ゲインGn-1を増幅器108に設定した後、マイクロフォン109より入力された音声信号を増幅器108で音声認識に適した音声レベル(式(2)参照)に調整した入力音声に対して、音声認識部111を起動して音声認識させる。
In
In
ステップ204において、送話ゲイン設定制御部103Bは音声認識部111からの認識結果の確定を待つ。
ステップ205において、送話ゲイン設定制御部103Bは、音声認識の認識結果の確定後、認識結果と音声レベル検出部103Aにより検出された音声レベル情報を取得する。認識結果を表示部105に表示し、スピーカ110に音声で鳴動させる。
In
In
ステップ206において、送話ゲインの更新処理(式(1)参照)を行う。
ステップ207において、送話ゲイン設定制御部103Bは送話ゲイン情報記憶部106Aに更新された送話ゲインの値を保存し、処理を終了する。
このようにして、送話ゲインを送話ゲイン情報記憶部106Aに保持し、音声認識を行う毎に送話ゲイン情報記憶部106Aに保持している送話ゲインを読み出し送話ゲインの更新を行うことにより、最適な送話ゲインを取得することが可能になる。これにより、音声認識時の音声レベルが適正音声レベルになり、以降も継続して音声認識に適した音声レベルが確保される。特に、推奨する使用方法と異なる使用者が音声起動しても、数回音声認識を行うことにより、使用者の使い方、声の大きさに合わせて送話ゲインの更新が行われるため、音声認識に最適な音声レベルが用いられることになる。
In step 206, transmission gain update processing (see equation (1)) is performed.
In step 207, the transmission gain
In this way, the transmission gain is held in the transmission gain
携帯電話機を含む携帯型情報端末装置をユーザの耳に密着して使用する場合頭の大きさのバラツキ、ユーザの音声レベルのバラツキに起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルになり、さらに、携帯型情報端末装置をユーザの耳から離して使用する場合受話部のマイクロフォンと口の間の距離のバラツキ、騒音に起因して送話部のマイクロフォンの増幅器で増幅された音声レベルが適正な音声レベルになり、音声の認識率が向上し、さらに、携帯型情報端末装置を耳に密着した状態から耳から離した状態に使用方法を変えた場合、又はこの逆に携帯型情報端末装置を耳から離した状態から耳に密着した状態に使用方法を変えた場合、自動的に送話ゲインの設定変更が行われ、従来のように送話ゲインの設定変更を行う必要がなくなり、操作が簡単になる。
以下に具体例で説明する。
When a portable information terminal device including a mobile phone is used in close contact with the user's ear, the voice level amplified by the microphone amplifier of the transmitter due to the variation in head size and the variation in the user's voice level When the portable information terminal device is used away from the user's ear, the microphone of the transmitter is amplified due to variations in the distance between the microphone of the receiver and the mouth and noise. When the voice level amplified in
A specific example will be described below.
図4は図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが小さく、バラツキが無く、時定数K=1.0である場合の例を説明する図である。
本図では、一例として、音声認識時の第1回目、第2回目、第3回目…の発声時にマイクロフォン109に入力する音声レベルがA1=700、A2=700、A3=700、…であるとし、適正音声レベルをC=1000とし、以下のように、送話ゲインを算出する。
FIG. 4 is a calculation example of the transmission gain by the transmission gain
In this figure, as an example, it is assumed that the voice levels input to the
第1回目の音声認識時の発声では、送話ゲインの初期値がG0=0.00dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX1は、(2)式より、
A1/X1=1
を満たし、この場合、
X1=A1=700
となる。
In the utterance at the time of the first speech recognition, the initial value of the transmission gain is G0 = 0.00 dB, and is set in the
A1 / X1 = 1
In this case,
X1 = A1 = 700
It becomes.
更新後の送話ゲインG1は、(1)式より、
G1=G0−1.0×20×log(X1/1000)dB
=0.0−1.0×20×log(700/1000)dB
=3.10dB
となる。
The updated transmission gain G1 is calculated from equation (1):
G1 = G0−1.0 × 20 × log (X1 / 1000) dB
= 0.0-1.0 x 20 x log (700/1000) dB
= 3.10 dB
It becomes.
なお上記の例で、図2に示すように、送話ゲイン情報記憶部106Aから送話ゲインの初期値(G0=0.00dB)を読み出し、算出された送話ゲインG1は更新した送話ゲインとして送話ゲイン情報記憶部106Aに保持され、次回の音声認識時に更新前の送話ゲインG1として使用される。以下同様である。
In the above example, as shown in FIG. 2, the initial value (G0 = 0.00 dB) of the transmission gain is read from the transmission gain
第2回目の音声認識時の発声では、更新前の送話ゲインがG1=3.10dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX2は、(2)式より、
X2=A2×10G1/20
=700×103.10/20
=1000
となる。
In the utterance at the time of the second speech recognition, the transmission gain before update is G1 = 3.10 dB and is set in the
X2 = A2 × 10 G1 / 20
= 700 × 10 3.10 / 20
= 1000
It becomes.
更新後の送話ゲインG2は、(1)式より、
G2=G1−1.0×20×log(X2/1000)dB
=3.10−1.0×20×log(1000/1000)dB
=3.10dB
となる。
The updated transmission gain G2 is calculated from equation (1):
G2 = G1-1.0 * 20 * log (X2 / 1000) dB
= 3.10-1.0 x 20 x log (1000/1000) dB
= 3.10 dB
It becomes.
第3回目の音声認識時以降の発声では、第2回目の音声認識時の場合と同様の音声レベル検出部103Aにより検出される音声レベルX3=1000、G3=3.10dBが得られる。
すなわち、送話ゲイン設定制御部103Bでは、第1回目の音声認識時には、発声前に増幅器108にG0=0.0dBを設定し、音声レベル検出部103Aでは音声レベルX1=700を検出し、G0=0.00dBをG1=3.10dBに更新する。
In the utterance after the third voice recognition, the voice level X3 = 1000 and G3 = 3.10 dB detected by the voice
That is, at the time of the first speech recognition, the transmission gain
この場合、時定数がK=1.0で、マイクロフォン109に入力する音声レベルA1=A2=A3=…=700としバラツキが無いとしているので、第2回目の音声認識時に音声レベル検出部103Aにより検出された音声レベルX2は、X2=1000となり、適正音声レベルC=1000に一致し、送話ゲインの更新値はG2=3.10dBとなり、最適値となる。
In this case, since the time constant is K = 1.0 and the voice level A1 = A2 = A3 =... = 700 is inputted to the
すわなち、マイクロフォン109とユーザの口の距離が一定で、入力される音声レベルが一定で、使用環境に騒音が無い場合には時定数を大きくして追従を早くすることが好ましい。
上記例では、マイクロフォン109に入力する音声レベルにはバラツキが無いとしたが、マイクロフォン109とユーザの口が離れて距離が一定でなく、入力される音声レベルが変動し、騒音環境で使用される場合には、時定数を大きくすると、送話ゲインの設定変化が大きく、逆に最適でない送話ゲインが設定されるので、バラツキがある場合には、以下のように時定数を小さくして送話ゲインの設定を行う。
In other words, when the distance between the
In the above example, there is no variation in the sound level input to the
図5は図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが小さく、バラツキがあり、時定数K=1.0である場合例を説明する図である。
本図では、音声認識時の第1回目、第2回目、第3回目…の発声時にマイクロフォン109に入力する音声レベルがA1=700、A2=750、A3=700、A4=750…とし、バラツキがあるとし、その他の条件は上記例と同じであるとして、以下のように、送話ゲインを算出する。
FIG. 5 is a calculation example of the transmission gain by the transmission gain
In this figure, the voice levels input to the
第1回目の音声認識時の発声では、送話ゲインの初期値がG0=0.00dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX1は、(2)式より、
A1/X1=1
を満たし、この場合、
X1=A1=700
となる。
In the utterance at the time of the first speech recognition, the initial value of the transmission gain is G0 = 0.00 dB, and is set in the
A1 / X1 = 1
In this case,
X1 = A1 = 700
It becomes.
更新後の送話ゲインG1は、(1)式より、
G1=G0−1.0×20×log(X1/1000)dB
=0.0−1.0×20×log(700/1000)dB
=3.10dB
となる。
The updated transmission gain G1 is calculated from equation (1):
G1 = G0−1.0 × 20 × log (X1 / 1000) dB
= 0.0-1.0 x 20 x log (700/1000) dB
= 3.10 dB
It becomes.
第2回目の音声認識時の発声では、更新前の送話ゲインがG1=3.10dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX2は、(2)式より、
X2=A2×10G1/20
=750×103.10/20
=1072
となる。
In the utterance at the time of the second speech recognition, the transmission gain before update is G1 = 3.10 dB and is set in the
X2 = A2 × 10 G1 / 20
= 750 × 10 3.10 / 20
= 1072
It becomes.
更新後の送話ゲインG2は、(1)式より、
G2=G1−1.0×20×log(X2/1000)dB
=3.10−1.0×20×log(1072/1000)dB
=2.50dB
となる。
The updated transmission gain G2 is calculated from equation (1):
G2 = G1-1.0 * 20 * log (X2 / 1000) dB
= 3.10-1.0 x 20 x log (1072/1000) dB
= 2.50 dB
It becomes.
第3回目の音声認識時の発声では、更新前の送話ゲインがG2=2.50dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX3は、(2)式より、
X3=A3×10G2/20
=700×102.50/20
=933
となる。
In the utterance at the time of the third speech recognition, the transmission gain before update is G2 = 2.50 dB, and is set in the
X3 = A3 × 10 G2 / 20
= 700 × 10 2.50 / 20
= 933
It becomes.
更新後の送話ゲインG3は、(1)式より、
G3=G2−1.0×20×log(X3/1000)dB
=2.5−1.0×20×log(933/1000)dB
=3.10dB
となる。
The updated transmission gain G3 is calculated from equation (1):
G3 = G2-1.0 * 20 * log (X3 / 1000) dB
= 2.5-1.0 * 20 * log (933/1000) dB
= 3.10 dB
It becomes.
第4回目の音声認識時以降の発声では、第2回目、第3回目の音声認識時の場合と同様に、音声レベル検出部103Aにより検出される音声レベルX2=1072、X3=933が繰り返される。
すなわち、送話ゲイン設定制御部103Bでは、第1回目の音声認識時には、増幅器108にG0=0.0dBを設定し、音声レベル検出部103Aでは音声レベルX1=700を検出し、G0=0.00dBをG1=3.10dBに更新する。
In the utterance after the fourth speech recognition, the speech levels X2 = 1072 and X3 = 933 detected by the
That is, the transmission gain
この場合、時定数がK=1.0で、マイクロフォン109に入力する音声レベルA1=700、A2=750、A3=700、…としバラツキがあるとしているので、第2回目、第3回目…の音声認識時に音声レベル検出部103Aにより検出された音声レベルX2、X3…は、X2=1072、X3=933…となり、適正音声レベルC=1000に一致せず、同様に更新後の送話ゲインも2.50dB、3.10dBとなり、相互に一致しない。
In this case, since the time constant is K = 1.0 and there are variations in the sound levels A1 = 700, A2 = 750, A3 = 700,... Input to the
前述のように、バラツキが無い場合には第2回目の音声認識時に適正音声レベルになったが、バラツキが有る場合には音声レベル検出部103Aにより検出された音声レベルが適正音声レベルにならない。
このため、ユーザが常に同一の条件で同一の声の大きさで発声せずに変動する場合、マイクロフォン109に入力する音声レベルA1、A2、A3、…にバラツキが生じ、音声レベル検出部103Aで検出される音声レベルが適正音声レベルと一致しないので、音声認識時に高い認識率を得ることは困難である。
As described above, when there is no variation, the appropriate sound level is obtained during the second speech recognition. However, when there is variation, the sound level detected by the sound
For this reason, when the user always fluctuates without speaking at the same voice volume under the same conditions, the voice levels A1, A2, A3,... Input to the
このため、次に、時定数Kを、一例として、「1.0」よりも小さい値、例えば、「0.5」に設定しバラツキの無い場合で、以下のように、音声レベル検出部103Aにより検出された音声レベルを適正音声レベルCに近づけるようにする。
Therefore, next, as an example, when the time constant K is set to a value smaller than “1.0”, for example, “0.5” and there is no variation, the audio
送話ゲインの初期値 図6は図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが小さく、バラツキが無く、時定数K=0.5である場合の例を説明する図である。
本図では、一例として、音声認識時の第1回目、第2回目、第3回目、第4回目、第5回目…の発声時にマイクロフォン109に入力する音声レベルがA1=700、A2=700、A3=700、A4=700、A5=700、A6=700、…とし、時定数を0.5として、以下のように、送話ゲインを算出する。
FIG. 6 shows an example of calculation of the transmission gain by the transmission gain
In this figure, as an example, the voice levels input to the
第1回目の音声認識時の発声では、送話ゲインの初期値がG0=0dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX1は、(2)式より、
A1/X1=1
となり、
X1=A1=700
となる。
In the utterance at the time of the first speech recognition, the initial value of the transmission gain is G0 = 0 dB and is set in the
A1 / X1 = 1
And
X1 = A1 = 700
It becomes.
この場合、更新後の送話ゲインG1は、(1)式より、
G1=G0−0.5×20×log(X1/1000)dB
=0.0−0.5×20×log(700/1000)dB
=1.2dB
となる。
In this case, the updated transmission gain G1 is expressed by the following equation (1):
G1 = G0−0.5 × 20 × log (X1 / 1000) dB
= 0.0-0.5 x 20 x log (700/1000) dB
= 1.2dB
It becomes.
第2回目の音声認識時の発声では、更新前の送話ゲインがG1=1.55dBであり、発声前に増幅器108に設定され、この場合の検出音声レベルX2は、(2)式より、
X2=A2×10G1/20
=700×101.55/20
=837
となる。
In the utterance at the time of the second speech recognition, the transmission gain before update is G1 = 1.55 dB, and is set in the
X2 = A2 × 10 G1 / 20
= 700 × 10 1.55 / 20
= 837
It becomes.
この場合、更新後の送話ゲインG2は、(1)式より、
G2=G1−0.5×20×log(X2/1000)dB
=1.55−0.5×20×log(837/1000)dB
=2.32dB
となる。
In this case, the updated transmission gain G2 is calculated from the equation (1):
G2 = G1-0.5 * 20 * log (X2 / 1000) dB
= 1.55-0.5 x 20 x log (837/1000) dB
= 2.32 dB
It becomes.
第3回目の音声認識時の発声では、更新前の送話ゲインがG2=2.32dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される検出音声レベルX3は、(2)式より、
X3=A3×10G2/20
=700×102.32/20
=914
となる。
In the utterance at the time of the third speech recognition, the transmission gain before update is G2 = 2.32 dB and is set in the
X3 = A3 × 10 G2 / 20
= 700 × 10 2.32 / 20
= 914
It becomes.
この場合、更新後の送話ゲインG3は、(1)式より、
G3=G2−0.5×20×log(X3/1000)dB
=2.32−0.5×20×log(914/1000)dB
=2.71dB
となる。
In this case, the updated transmission gain G3 is calculated from the equation (1):
G3 = G2-0.5 * 20 * log (X3 / 1000) dB
= 2.32-0.5 x 20 x log (914/1000) dB
= 2.71 dB
It becomes.
第4回目の音声認識時の発声では、更新前の送話ゲインがG3=2.71dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX4は、(2)式より、
X4=A4×10G3/20
=700×102.71/20
=956
となる。
In the utterance at the time of the fourth speech recognition, the transmission gain before update is G3 = 2.71 dB and is set in the
X4 = A4 × 10 G3 / 20
= 700 × 10 2.71 / 20
= 956
It becomes.
この場合、更新後の送話ゲインG4は、(1)式より、
G4=G3−0.5×20×log(X4/1000)dB
=2.71−0.5×20×log(956/1000)dB
=2.91dB
となる。
In this case, the updated transmission gain G4 is expressed by the following equation (1):
G4 = G3−0.5 × 20 × log (X4 / 1000) dB
= 2.71−0.5 × 20 × log (956/1000) dB
= 2.91 dB
It becomes.
第5回目の音声認識時の発声では、更新前の送話ゲインがG4=2.91dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX5は、(2)式より、
X5=A5×10G4/20
=700×102.91/20
=979
となる。
In the utterance at the time of the fifth speech recognition, the transmission gain before update is G4 = 2.91 dB and is set in the
X5 = A5 × 10 G4 / 20
= 700 × 10 2.91 / 20
= 979
It becomes.
この場合、更新後の送話ゲインG5は、(1)式より、
G5=G4−0.5×20×log(X5/1000)dB
=2.91−0.5×20×log(979/1000)dB
=2.4dB
となる。
In this case, the updated transmission gain G5 is calculated from the equation (1):
G5 = G4−0.5 × 20 × log (X5 / 1000) dB
= 2.91−0.5 × 20 × log (979/1000) dB
= 2.4dB
It becomes.
この場合の最終的な送話ゲインは、
−20×log(700/1000)dB
=3.00dB
である。
このように前述の図4に示すように2回目の発声で適正音声レベルにできないが、5回目の発声でほぼ適正音声レベルにできる。すなわち、送話ゲインを更新することにより、最適な送話ゲインになる。
The final transmission gain in this case is
−20 × log (700/1000) dB
= 3.00 dB
It is.
As described above, as shown in FIG. 4, it is not possible to achieve an appropriate sound level with the second utterance, but it is possible to achieve an approximately appropriate sound level with the fifth utterance. That is, by updating the transmission gain, the optimal transmission gain is obtained.
図7は図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが大きく、バラツキが無く、時定数K=0.5である場合の例を説明する図である。
本図では、一例として、音声認識時の第1回目、第2回目、第3回目、第4回目、第5回目、第6回…の発声時にマイクロフォン109に入力する音声レベルがA1=1300、A2=1300、A3=1300、A4=1300、A5=1300、…とし、時定数を0.5として、以下のように、送話ゲインを算出する。
FIG. 7 is a calculation example of the transmission gain by the transmission gain
In this figure, as an example, the voice level input to the
第1回目の音声認識時の発声では、送話ゲインの初期値がG0=0dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX1は、(2)式より、
A1/X1=1
となり、
X1=A1=1300
となる。
In the utterance at the time of the first speech recognition, the initial value of the transmission gain is G0 = 0 dB and is set in the
A1 / X1 = 1
And
X1 = A1 = 1300
It becomes.
この場合、更新後の送話ゲインG1は、(1)式より、
G1=G0−0.5×20×log(X1/1000)dB
=0.0−0.5×20×log(1300/1000)dB
=−1.14dB
となる。
In this case, the updated transmission gain G1 is expressed by the following equation (1):
G1 = G0−0.5 × 20 × log (X1 / 1000) dB
= 0.0-0.5 x 20 x log (1300/1000) dB
= -1.14 dB
It becomes.
第2回目の音声認識時の発声では、更新前の送話ゲインがG1=−1.14dBであり、発声前に増幅器108に設定され、、この場合の検出音声レベルX2は、(2)式より、
X2=A2×10G1/20
=1300×10−1.14/20
=1140
となる。
In the utterance at the time of the second speech recognition, the transmission gain before update is G1 = −1.14 dB, and is set in the
X2 = A2 × 10 G1 / 20
= 1300 × 10 −1.14 / 20
= 1140
It becomes.
この場合、更新後の送話ゲインG2は、(1)式より、
G2=G1−0.5×20×log(X2/1000)dB
=−1.14−0.5×20×log(1140/1000)dB
=−1.71dB
となる。
In this case, the updated transmission gain G2 is calculated from the equation (1):
G2 = G1-0.5 * 20 * log (X2 / 1000) dB
= -1.14-0.5 x 20 x log (1140/1000) dB
= -1.71 dB
It becomes.
第3回目の音声認識時の発声では、更新前の送話ゲインがG2=−1.71dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される検出音声レベルX3は、(2)式より、
X3=A3×10G2/20
=1300×10−1.71/20
=1068
となる。
In the utterance at the time of the third speech recognition, the transmission gain before update is G2 = -1.71 dB, and is set in the
X3 = A3 × 10 G2 / 20
= 1300 × 10 −1.71 / 20
= 1068
It becomes.
この場合、更新後の送話ゲインG3は、(1)式より、
G3=G2−0.5×20×log(X3/1000)dB
=−1.71−0.5×20×log(1068/1000)dB
=−2.00dB
となる。
In this case, the updated transmission gain G3 is calculated from the equation (1):
G3 = G2-0.5 * 20 * log (X3 / 1000) dB
= -1.71-0.5 x 20 x log (1068/1000) dB
= -2.00 dB
It becomes.
第4回目の音声認識時の発声では、更新前の送話ゲインがG3=−2.00dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX4は、(2)式より、
X4=A4×10G3/20
=1300×10−2.00/20
=1032
となる。
In the utterance at the time of the fourth speech recognition, the transmission gain before update is G3 = −2.00 dB, and is set in the
X4 = A4 × 10 G3 / 20
= 1300 × 10 −2.00 / 20
= 1032
It becomes.
この場合、更新後の送話ゲインG4は、(1)式より、
G4=G3−0.5×20×log(X4/1000)dB
=−2.00−0.5×20×log(1032/1000)dB
=−2.14dB
となる。
In this case, the updated transmission gain G4 is expressed by the following equation (1):
G4 = G3−0.5 × 20 × log (X4 / 1000) dB
= −2.00−0.5 × 20 × log (1032/1000) dB
= -2.14 dB
It becomes.
第5回目の音声認識時の発声では、更新前の送話ゲインがG4=−2.14dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX5は、(2)式より、
X5=A5×10G4/20
=1300×10−2.14/20
=1016
となる。
In the utterance at the time of the fifth speech recognition, the transmission gain before update is G4 = -2.14 dB, and is set in the
X5 = A5 × 10 G4 / 20
= 1300 × 10 −2.14 / 20
= 1016
It becomes.
この場合、更新後の送話ゲインG5は、(1)式より、
G5=G4−0.5×20×log(X5/1000)dB
=−2.14−0.5×20×log(1016/1000)dB
=−2.21dB
となる。
In this case, the updated transmission gain G5 is calculated from the equation (1):
G5 = G4−0.5 × 20 × log (X5 / 1000) dB
= −2.14−0.5 × 20 × log (1016/1000) dB
= -2.21dB
It becomes.
この場合の最終的な送話ゲインは、
−20×log(1300/1000)dB
=−2.28dB
である。
このように前述の図4に示すように2回目の発声で適正音声レベルにできないが、5回目の発声でほぼ適正音声レベルにできる。すなわち、送話ゲインを更新することにより、最適な送話ゲインになる。
The final transmission gain in this case is
−20 × log (1300/1000) dB
= -2.28 dB
It is.
As described above, as shown in FIG. 4, it is not possible to achieve an appropriate sound level with the second utterance, but it is possible to achieve an approximately appropriate sound level with the fifth utterance. That is, by updating the transmission gain, the optimal transmission gain is obtained.
図8は図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d2=7cm)が大きく、マイクロフォン109に入力される音声レベルが小さく、バラツキが無く、時定数K=0.5である場合の例を説明する図である。
本図では、一例として、音声認識時の第1回目、第2回目、第3回目、第4回目、第5回目、第6回…の発声時にマイクロフォン109に入力する音声レベルがA1=300、A2=300、A3=300、A4=300、A5=300、…とし、時定数を0.5として、以下のように、送話ゲインを算出する。
FIG. 8 is a calculation example of the transmission gain by the transmission gain
In this figure, as an example, when the first, second, third, fourth, fifth, sixth,... With A2 = 300, A3 = 300, A4 = 300, A5 = 300,... And a time constant of 0.5, the transmission gain is calculated as follows.
第1回目の音声認識時の発声では、送話ゲインの初期値がG0=0dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX1は、(2)式より、
A1/X1=1
となり、
X1=A1=300
となる。
In the utterance at the time of the first speech recognition, the initial value of the transmission gain is G0 = 0 dB and is set in the
A1 / X1 = 1
And
X1 = A1 = 300
It becomes.
この場合、更新後の送話ゲインG1は、(1)式より、
G1=G0−0.5×20×log(X1/1000)dB
=0.0−0.5×20×log(300/1000)dB
=5.23dB
となる。
In this case, the updated transmission gain G1 is expressed by the following equation (1):
G1 = G0−0.5 × 20 × log (X1 / 1000) dB
= 0.0-0.5 x 20 x log (300/1000) dB
= 5.23 dB
It becomes.
第2回目の音声認識時の発声では、更新前の送話ゲインがG1=5.23dBであり、発声前に増幅器108に設定され、この場合の検出音声レベルX2は、(2)式より、
X2=A2×10G1/20
=300×105.23/20
=548
となる。
In the utterance at the time of the second speech recognition, the transmission gain before update is G1 = 5.23 dB, and is set in the
X2 = A2 × 10 G1 / 20
= 300 × 10 5.23 / 20
= 548
It becomes.
この場合、更新後の送話ゲインG2は、(1)式より、
G2=G1−0.5×20×log(X2/1000)dB
=5.23−0.5×20×log(548/1000)dB
=7.84dB
となる。
In this case, the updated transmission gain G2 is calculated from the equation (1):
G2 = G1-0.5 * 20 * log (X2 / 1000) dB
= 5.23−0.5 × 20 × log (548/1000) dB
= 7.84 dB
It becomes.
第3回目の音声認識時の発声では、更新前の送話ゲインがG2=7.84dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される検出音声レベルX3は、(2)式より、
X3=A3×10G2/20
=300×107.84/20
=740
となる。
In the utterance at the time of the third speech recognition, the transmission gain before update is G2 = 7.84 dB, and is set in the
X3 = A3 × 10 G2 / 20
= 300 × 10 7.84 / 20
= 740
It becomes.
この場合、更新後の送話ゲインG3は、(1)式より、
G3=G2−0.5×20×log(X3/1000)dB
=7.84−0.5×20×log(740/1000)dB
=8.90dB
となる。
In this case, the updated transmission gain G3 is calculated from the equation (1):
G3 = G2-0.5 * 20 * log (X3 / 1000) dB
= 7.84−0.5 × 20 × log (740/1000) dB
= 8.90 dB
It becomes.
第4回目の音声認識時の発声では、更新前の送話ゲインがG3=8.90dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX4は、(2)式より、
X4=A4×10G3/20
=300×108.90/20
=836
となる。
In the utterance at the time of the fourth speech recognition, the transmission gain before update is G3 = 8.90 dB, and is set in the
X4 = A4 × 10 G3 / 20
= 300 × 10 8.90 / 20
= 836
It becomes.
この場合、更新後の送話ゲインG4は、(1)式より、
G4=G3−0.5×20×log(X4/1000)dB
=8.90−0.5×20×log(836/1000)dB
=9.68dB
となる。
In this case, the updated transmission gain G4 is expressed by the following equation (1):
G4 = G3−0.5 × 20 × log (X4 / 1000) dB
= 8.90−0.5 × 20 × log (836/1000) dB
= 9.68 dB
It becomes.
第5回目の音声認識時の発声では、更新前の送話ゲインがG4=9.68dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX5は、(2)式より、
X5=A5×10G4/20
=300×109.68/20
=914
となる。
In the utterance at the time of the fifth speech recognition, the transmission gain before update is G4 = 9.68 dB, and is set in the
X5 = A5 × 10 G4 / 20
= 300 × 10 9.68 / 20
= 914
It becomes.
この場合、更新後の送話ゲインG5は、(1)式より、
G5=G4−0.5×20×log(X5/1000)dB
=9.68−0.5×20×log(914/1000)dB
=10.07dB
となる。
In this case, the updated transmission gain G5 is calculated from the equation (1):
G5 = G4−0.5 × 20 × log (X5 / 1000) dB
= 9.68−0.5 × 20 × log (914/1000) dB
= 10.07 dB
It becomes.
この場合の最終的な送話ゲインは、
−20×log(300/1000)dB
=10.46dB
である。
このように前述の図4に示すように2回目の発声で適正音声レベルにできないが、5回目の発声でほぼ適正音声レベルにできる。すなわち、送話ゲインを更新することにより、最適な送話ゲインになる。
The final transmission gain in this case is
−20 × log (300/1000) dB
= 10.46 dB
It is.
As described above, as shown in FIG. 4, it is not possible to achieve an appropriate sound level with the second utterance, but it is possible to achieve an approximately appropriate sound level with the fifth utterance. That is, by updating the transmission gain, the optimal transmission gain is obtained.
次に、時定数K=0.5をそのままで、バラツキ有りとして、以下のように、音声レベル検出部103Aにより検出された音声レベルを適正音声レベルCに近づけるようにする。
Next, with the time constant K = 0.5 as it is, there is variation, and the sound level detected by the sound
図9は図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが小さく、バラツキが有り、時定数K=0.5である場合の例を説明する図である。
本図では、一例として、音声認識時の第1回目、第2回目、第3回目、第4回目、第5回目…の発声時にマイクロフォン109に入力する音声レベルがA1=700、A2=750、A3=700、A4=750、A5=700、A6=750、…とし、時定数を0.5として、以下のように、送話ゲインを算出する。
FIG. 9 is a calculation example of the transmission gain by the transmission gain
In this figure, as an example, when the first, second, third, fourth, fifth, and so on during voice recognition, the voice levels input to the
第1回目の音声認識時の発声では、送話ゲインの初期値がG0=0dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX1は、(2)式より、
A1/X1=1
となり、
X1=A1=700
となる。
In the utterance at the time of the first speech recognition, the initial value of the transmission gain is G0 = 0 dB and is set in the
A1 / X1 = 1
And
X1 = A1 = 700
It becomes.
この場合、更新後の送話ゲインG1は、(1)式より、
G1=G0−0.5×20×log(X1/1000)dB
=0.0−0.5×20×log(700/1000)dB
=1.55dB
となる。
In this case, the updated transmission gain G1 is expressed by the following equation (1):
G1 = G0−0.5 × 20 × log (X1 / 1000) dB
= 0.0-0.5 x 20 x log (700/1000) dB
= 1.55 dB
It becomes.
第2回目の音声認識時の発声では、更新前の送話ゲインがG1=1.55dBであり、発声前に増幅器108に設定され、この場合の検出音声レベルX2は、(2)式より、
X2=A2×10G1/20
=750×101.55/20
=895
となる。
In the utterance at the time of the second speech recognition, the transmission gain before update is G1 = 1.55 dB, and is set in the
X2 = A2 × 10 G1 / 20
= 750 × 10 1.55 / 20
= 895
It becomes.
この場合、更新後の送話ゲインG2は、(1)式より、
G2=G1−0.5×20×log(X2/1000)dB
=1.55−0.5×20×log(895/1000)dB
=2.02dB
となる。
In this case, the updated transmission gain G2 is calculated from the equation (1):
G2 = G1-0.5 * 20 * log (X2 / 1000) dB
= 1.55-0.5 x 20 x log (895/1000) dB
= 2.02 dB
It becomes.
第3回目の音声認識時の発声では、更新前の送話ゲインがG2=2.02dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される検出音声レベルX3は、(2)式より、
X3=A3×10G2/20
=700×102.02/20
=883
となる。
In the utterance at the time of the third speech recognition, the transmission gain before update is G2 = 2.02 dB, and is set in the
X3 = A3 × 10 G2 / 20
= 700 × 10 2.02 / 20
= 883
It becomes.
この場合、更新後の送話ゲインG3は、(1)式より、
G3=G2−0.5×20×log(X3/1000)dB
=2.02−0.5×20×log(883/1000)dB
=2.56dB
となる。
In this case, the updated transmission gain G3 is calculated from the equation (1):
G3 = G2-0.5 * 20 * log (X3 / 1000) dB
= 2.02-0.5 x 20 x log (883/1000) dB
= 2.56dB
It becomes.
第4回目の音声認識時の発声では、更新前の送話ゲインがG3=2.56dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX4は、(2)式より、
X4=A4×10G3/20
=750×102.56/20
=1007
となる。
In the utterance at the time of the fourth speech recognition, the transmission gain before update is G3 = 2.56 dB, and is set in the
X4 = A4 × 10 G3 / 20
= 750 × 10 2.56 / 20
= 1007
It becomes.
この場合、更新後の送話ゲインG4は、(1)式より、
G4=G3−0.5×20×log(X4/1000)dB
=2.56−0.5×20×log(1007/1000)dB
=2.53dB
となる。
In this case, the updated transmission gain G4 is expressed by the following equation (1):
G4 = G3−0.5 × 20 × log (X4 / 1000) dB
= 2.56-0.5 × 20 × log (1007/1000) dB
= 2.53 dB
It becomes.
第5回目の音声認識時の発声では、更新前の送話ゲインがG4=2.53dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX5は、(2)式より、
X5=A5×10G4/20
=700×102.53/20
=937
となる。
In the utterance at the time of the fifth speech recognition, the transmission gain before update is G4 = 2.53 dB, and is set in the
X5 = A5 × 10 G4 / 20
= 700 × 10 2.53 / 20
= 937
It becomes.
この場合、更新後の送話ゲインG5は、(1)式より、
G5=G4−0.5×20×log(X5/1000)dB
=2.53−0.5×20×log(937/1000)dB
=2.81dB
となる。
In this case, the updated transmission gain G5 is calculated from the equation (1):
G5 = G4−0.5 × 20 × log (X5 / 1000) dB
= 2.53-0.5 × 20 × log (937/1000) dB
= 2.81 dB
It becomes.
本図で示す6回目から8回目の途中の経過の説明を省略し、9回目、10回目の発声における音声レベル検出部103Aで検出される音声レベル「954」、「1046」、更新後の送話ゲイン「2.89」、「2.69」が以降の発声で繰り返される。
このように図5の時定数K=1.0に設定した場合と比較すると、時定数K=0.5の場合、音声レベル検出部103Aで検出される音声レベルは適正音声レベルC(=1000)に近づくのに発声回数をより多く必要とするが、適正音声レベルにより近づき、音声認識の認識率が向上する。すなわち、送話ゲインを更新することにより、最適な送話ゲインに近づく。
The explanation of the process from the 6th to the 8th in the figure is omitted, and the audio levels “954” and “1046” detected by the audio
As compared with the case where the time constant K = 1.0 in FIG. 5 is set in this way, when the time constant K = 0.5, the sound level detected by the sound
図10は図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d2=7cm)が大きく、マイクロフォン109に入力される音声レベルが小さく、バラツキが無く、時定数K=0.5であり、音声レベル検出部103Aで検出される音声レベルが適正音声レベルに近い状態で急に雑音が入った場合の例を説明する図である。
本図では、一例として、音声認識再開時の第1回目、第2回目、第3回目、第4回目、第5回目、第6回目…の発声時にマイクロフォン109に入力する音声レベルがA1=300、A2=500、A3=300、A4=300、A5=300、A6=300、A7=300、…とし、時定数を0.5として、以下のように、送話ゲインを算出する。
FIG. 10 is a calculation example of the transmission gain by the transmission gain
In this figure, as an example, the voice level input to the
すなわち、音声認識再開時の第1回目の発声時にマイクロフォン109に入力する音声レベルがA1=300であり、音声レベル検出部103Aで検出される音声レベルがほぼ適正音声レベルC=1000になっており、第2回目だけに雑音が入力したとする。
第1回目の音声認識時の発声では、更新前の送話ゲインがG0=10.46dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX1は、(2)式より、
X1=A1×10G0/20
=700×1010.46/20
=1000
となる。
That is, the voice level input to the
In the utterance at the time of the first speech recognition, the transmission gain before update is G0 = 10.46 dB and is set in the
X1 = A1 × 10 G0 / 20
= 700 × 10 10.46 / 20
= 1000
It becomes.
この場合、更新後の送話ゲインG1は、(1)式より、
G1=G0−0.5×20×log(X1/1000)dB
=10.46−0.5×20×log(1000/1000)dB
=10.46dB
となる。
In this case, the updated transmission gain G1 is expressed by the following equation (1):
G1 = G0−0.5 × 20 × log (X1 / 1000) dB
= 10.46-0.5 x 20 x log (1000/1000) dB
= 10.46 dB
It becomes.
第2回目の音声認識時の発声では、更新前の送話ゲインがG1=10.46dBであり、発声前に増幅器108に設定され、この場合の検出音声レベルX2は、(2)式より、
X2=A2×10G1/20
=500×102.71/20
=1667
となる。
In the utterance at the time of the second speech recognition, the transmission gain before the update is G1 = 10.46 dB, and is set in the
X2 = A2 × 10 G1 / 20
= 500 × 10 2.71 / 20
= 1667
It becomes.
この場合、更新後の送話ゲインG2は、(1)式より、
G2=G1−0.5×20×log(X2/1000)dB
=10.46−0.5×20×log(1667/1000)dB
=8.24dB
となる。
In this case, the updated transmission gain G2 is calculated from the equation (1):
G2 = G1-0.5 * 20 * log (X2 / 1000) dB
= 10.46-0.5 x 20 x log (1667/1000) dB
= 8.24 dB
It becomes.
第3回目の音声認識時の発声では、更新前の送話ゲインがG2=8.24dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される検出音声レベルX3は、(2)式より、
X3=A3×10G2/20
=300×108.24/20
=775
となる。
In the utterance at the time of the third speech recognition, the transmission gain before update is G2 = 8.24 dB, and is set in the
X3 = A3 × 10 G2 / 20
= 300 × 10 8.24 / 20
= 775
It becomes.
この場合、更新後の送話ゲインG3は、(1)式より、
G3=G2−0.5×20×log(X3/1000)dB
=8.24−0.5×20×log(775/1000)dB
=9.35dB
となる。
In this case, the updated transmission gain G3 is calculated from the equation (1):
G3 = G2-0.5 * 20 * log (X3 / 1000) dB
= 8.24-0.5 × 20 × log (775/1000) dB
= 9.35 dB
It becomes.
第4回目の音声認識時の発声では、更新前の送話ゲインがG3=9.35dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX4は、(2)式より、
X4=A4×10G3/20
=300×109.35/20
=880
となる。
In the utterance at the time of the fourth speech recognition, the transmission gain before update is G3 = 9.35 dB and is set in the
X4 = A4 × 10 G3 / 20
= 300 × 10 9.35 / 20
= 880
It becomes.
この場合、更新後の送話ゲインG4は、(1)式より、
G4=G3−0.5×20×log(X4/1000)dB
=9.35−0.5×20×log(880/1000)dB
=9.91dB
となる。
In this case, the updated transmission gain G4 is expressed by the following equation (1):
G4 = G3−0.5 × 20 × log (X4 / 1000) dB
= 9.35-0.5 x 20 x log (880/1000) dB
= 9.91 dB
It becomes.
第5回目の音声認識時の発声では、更新前の送話ゲインがG4=9.91dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX5は、(2)式より、
X5=A5×10G4/20
=300×109.91/20
=939
となる。
In the utterance at the time of the fifth speech recognition, the transmission gain before update is G4 = 9.91 dB, and is set in the
X5 = A5 × 10 G4 / 20
= 300 × 10 9.91 / 20
= 939
It becomes.
この場合、更新後の送話ゲインG5は、(1)式より、
G5=G4−0.5×20×log(X5/1000)dB
=9.91−0.5×20×log(939/1000)dB
=10.18dB
となる。
In this case, the updated transmission gain G5 is calculated from the equation (1):
G5 = G4−0.5 × 20 × log (X5 / 1000) dB
= 9.91−0.5 × 20 × log (939/1000) dB
= 10.18 dB
It becomes.
第6回目の音声認識時の発声では、更新前の送話ゲインがG5=10.18dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX6は、(2)式より、
X6=A6×10G5/20
=300×1010.18/20
=969
となる。
In the utterance at the time of the sixth speech recognition, the transmission gain before update is G5 = 10.18 dB, and is set in the
X6 = A6 × 10 G5 / 20
= 300 × 10 10.18 / 20
= 969
It becomes.
この場合、更新後の送話ゲインG6は、(1)式より、
G6=G5−0.5×20×log(X6/1000)dB
=10.18−0.5×20×log(969/1000)dB
=10.32dB
となる。
このように、雑音により送話ゲインが変化しても、送話ゲインを更新することにより、元の最適な送話ゲインに戻る。
In this case, the updated transmission gain G6 is as follows from the equation (1):
G6 = G5−0.5 × 20 × log (X6 / 1000) dB
= 10.18-0.5 x 20 x log (969/1000) dB
= 10.32 dB
It becomes.
Thus, even if the transmission gain changes due to noise, the transmission gain is updated to return to the original optimum transmission gain.
図11は図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが大きく、バラツキが無く、時定数K=0.5であり、音声レベル検出部103Aで検出される音声レベルが適正音声レベルに近い状態で急にマイクロフォン109からユーザの口までの距離(d2=7cm)が大きく、マイクロフォン109に入力される音声レベルが小さくなった場合の例を説明する図である。
FIG. 11 is a calculation example of the transmission gain by the transmission gain
本図では、一例として、音声認識再開時の第1回目、第2回目、第3回目、第4回目、第5回目、第6回目、第7回目…の発声時にマイクロフォン109に入力する音声レベルがA1=300、A2=700、A3=700、A4=700、A5=700、A6=700、A7=700、…とし、時定数を0.5として、以下のように、送話ゲインを算出する。
すなわち、音声認識再開時の第1回目の発声時にマイクロフォン109に入力する音声レベルがA1=300であり、音声レベル検出部103Aで検出される音声レベルがほぼ適正音声レベルC=1000になっており、第2回目以降の音声レベルが700に変化するとする。
In this figure, as an example, the voice level input to the
That is, the voice level input to the
第1回目の音声認識時の発声では、更新前の送話ゲインがG0=10.46dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX1は、(2)式より、
X1=A1×10G0/20
=300×1010.46/20
=1000
となる。
In the utterance at the time of the first speech recognition, the transmission gain before update is G0 = 10.46 dB and is set in the
X1 = A1 × 10 G0 / 20
= 300 × 10 10.46 / 20
= 1000
It becomes.
この場合、更新後の送話ゲインG1は、(1)式より、
G1=G0−0.5×20×log(X1/1000)dB
=10.46−0.5×20×log(1000/1000)dB
=10.46dB
となる。
In this case, the updated transmission gain G1 is expressed by the following equation (1):
G1 = G0−0.5 × 20 × log (X1 / 1000) dB
= 10.46-0.5 x 20 x log (1000/1000) dB
= 10.46 dB
It becomes.
第2回目の音声認識時の発声では、更新前の送話ゲインがG1=10.46dBであり、発声前に増幅器108に設定され、この場合の検出音声レベルX2は、(2)式より、
X2=A2×10G1/20
=700×1010.46/20
=2331
となる。
In the utterance at the time of the second speech recognition, the transmission gain before the update is G1 = 10.46 dB, and is set in the
X2 = A2 × 10 G1 / 20
= 700 × 10 10.46 / 20
= 2331
It becomes.
この場合、更新後の送話ゲインG2は、(1)式より、
G2=G1−0.5×20×log(X2/1000)dB
=10.46−0.5×20×log(2331/1000)dB
=6.78dB
となる。
In this case, the updated transmission gain G2 is calculated from the equation (1):
G2 = G1-0.5 * 20 * log (X2 / 1000) dB
= 10.46-0.5 x 20 x log (2331/1000) dB
= 6.78 dB
It becomes.
第3回目の音声認識時の発声では、更新前の送話ゲインがG2=6.78dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される検出音声レベルX3は、(2)式より、
X3=A3×10G2/20
=700×106.78/20
=1528
となる。
In the utterance at the time of the third speech recognition, the transmission gain before update is G2 = 6.78 dB, and is set in the
X3 = A3 × 10 G2 / 20
= 700 × 10 6.78 / 20
= 1528
It becomes.
この場合、更新後の送話ゲインG3は、(1)式より、
G3=G2−0.5×20×log(X3/1000)dB
=6.78−0.5×20×log(1528/1000)dB
=4.94dB
となる。
In this case, the updated transmission gain G3 is calculated from the equation (1):
G3 = G2-0.5 * 20 * log (X3 / 1000) dB
= 6.78−0.5 × 20 × log (1528/1000) dB
= 4.94 dB
It becomes.
第4回目の音声認識時の発声では、更新前の送話ゲインがG3=4.94dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX4は、(2)式より、
X4=A4×10G3/20
=700×104.94/20
=1236
となる。
In the utterance at the time of the fourth speech recognition, the transmission gain before update is G3 = 4.94 dB, and is set in the
X4 = A4 × 10 G3 / 20
= 700 × 10 4.94 / 20
= 1236
It becomes.
この場合、更新後の送話ゲインG4は、(1)式より、
G4=G3−0.5×20×log(X4/1000)dB
=4.94−0.5×20×log(1236/1000)dB
=4.02dB
となる。
In this case, the updated transmission gain G4 is expressed by the following equation (1):
G4 = G3−0.5 × 20 × log (X4 / 1000) dB
= 4.94−0.5 × 20 × log (1236/1000) dB
= 4.02 dB
It becomes.
第5回目の音声認識時の発声では、更新前の送話ゲインがG4=4.02dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX5は、(2)式より、
X5=A5×10G4/20
=700×104.02/20
=1112
となる。
In the utterance at the time of the fifth speech recognition, the transmission gain before update is G4 = 4.02 dB, and is set in the
X5 = A5 × 10 G4 / 20
= 700 × 10 4.02 / 20
= 1112
It becomes.
この場合、更新後の送話ゲインG5は、(1)式より、
G5=G4−0.5×20×log(X5/1000)dB
=4.02−0.5×20×log(1112/1000)dB
=3.56dB
となる。
In this case, the updated transmission gain G5 is calculated from the equation (1):
G5 = G4−0.5 × 20 × log (X5 / 1000) dB
= 4.02-0.5 x 20 x log (1112/1000) dB
= 3.56dB
It becomes.
第6回目の音声認識時の発声では、更新前の送話ゲインがG5=3.56dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX6は、(2)式より、
X6=A6×10G5/20
=700×103.56/20
=1055
となる。
In the utterance at the time of the sixth speech recognition, the transmission gain before update is G5 = 3.56 dB, and is set in the
X6 = A6 × 10 G5 / 20
= 700 × 10 3.56 / 20
= 1055
It becomes.
この場合、更新後の送話ゲインG6は、(1)式より、
G6=G5−0.5×20×log(X6/1000)dB
=3.56−0.5×20×log(1055/1000)dB
=3.33dB
となる。
In this case, the updated transmission gain G6 is as follows from the equation (1):
G6 = G5−0.5 × 20 × log (X6 / 1000) dB
= 3.56-0.5 × 20 × log (1055/1000) dB
= 3.33dB
It becomes.
第7回目の音声認識時の発声では、更新前の送話ゲインがG6=3.33dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX7は、(2)式より、
X7=A7×10G6/20
=700×103.33/20
=1027
となる。
In the utterance at the time of the seventh speech recognition, the transmission gain before update is G6 = 3.33 dB, and is set in the
X7 = A7 × 10 G6 / 20
= 700 × 10 3.33 / 20
= 1027
It becomes.
この場合、更新後の送話ゲインG7は、(1)式より、
G7=G6−0.5×20×log(X7/1000)dB
=3.33−0.5×20×log(1027/1000)dB
=3.21dB
となる。
In this case, the updated transmission gain G7 is calculated from the equation (1):
G7 = G6−0.5 × 20 × log (X7 / 1000) dB
= 3.33-0.5 x 20 x log (1027/1000) dB
= 3.21 dB
It becomes.
このように、マイクロフォン109からユーザの口までの距離(d2=7cm)が大きく、マイクロフォン109に入力される音声レベルが小さく、音声レベル検出部103Aで検出される音声レベルが適正音声レベルに近い状態で急にマイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが大きくなった場合にも、送話ゲインを更新することにより、第7回目でほぼ最適な送話ゲインになる。
As described above, the distance from the
図12は図1における送話ゲイン設定制御部103Bによる送話ゲインの算出例で、マイクロフォン109からユーザの口までの距離(d2=7cm)が大きく、マイクロフォン109に入力される音声レベルが小さく、バラツキが無く、時定数K=0.5であり、音声レベル検出部103Aで検出される音声レベルが適正音声レベルに近い状態で急にマイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが大きくなった場合の例を説明する図である。
FIG. 12 is a calculation example of the transmission gain by the transmission gain
本図では、一例として、音声認識再開時の第1回目、第2回目、第3回目、第4回目、第5回目、第6回目、第7回目…の発声時にマイクロフォン109に入力する音声レベルがA1=700、A2=300、A3=300、A4=300、A5=300、A6=300、A7=300、…とし、時定数を0.5として、以下のように、送話ゲインを算出する。
すなわち、音声認識再開時の第1回目の発声時にマイクロフォン109に入力する音声レベルがA1=700であり、音声レベル検出部103Aで検出される音声レベルがほぼ適正音声レベルC=1000になっており、第2回目以降の音声レベルが300に変化するとする。
In this figure, as an example, the voice level input to the
That is, the voice level input to the
第1回目の音声認識時の発声では、更新前の送話ゲインがG0=3.00dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX1は、(2)式より、
X1=A1×10G0/20
=700×103.00/20
=1000
となる。
In the utterance at the time of the first speech recognition, the transmission gain before update is G0 = 3.00 dB and is set in the
X1 = A1 × 10 G0 / 20
= 700 × 10 3.00 / 20
= 1000
It becomes.
この場合、更新後の送話ゲインG1は、(1)式より、
G1=G0−0.5×20×log(X1/1000)dB
=3.00−0.5×20×log(1000/1000)dB
=3.00dB
となる。
In this case, the updated transmission gain G1 is expressed by the following equation (1):
G1 = G0−0.5 × 20 × log (X1 / 1000) dB
= 3.00-0.5 x 20 x log (1000/1000) dB
= 3.00 dB
It becomes.
第2回目の音声認識時の発声では、更新前の送話ゲインがG1=3.00dBであり、発声前に増幅器108に設定され、この場合の検出音声レベルX2は、(2)式より、
X2=A2×10G1/20
=300×103.00/20
=424
となる。
In the utterance at the time of the second speech recognition, the transmission gain before the update is G1 = 3.00 dB, and is set in the
X2 = A2 × 10 G1 / 20
= 300 × 10 3.00 / 20
= 424
It becomes.
この場合、更新後の送話ゲインG2は、(1)式より、
G2=G1−0.5×20×log(X2/1000)dB
=3.00−0.5×20×log(424/1000)dB
=6.73dB
となる。
In this case, the updated transmission gain G2 is calculated from the equation (1):
G2 = G1-0.5 * 20 * log (X2 / 1000) dB
= 3.00-0.5 x 20 x log (424/1000) dB
= 6.73 dB
It becomes.
第3回目の音声認識時の発声では、更新前の送話ゲインがG2=6.73dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される検出音声レベルX3は、(2)式より、
X3=A3×10G2/20
=300×106.73/20
=651
となる。
In the utterance at the time of the third speech recognition, the transmission gain before update is G2 = 6.73 dB, and is set in the
X3 = A3 × 10 G2 / 20
= 300 × 10 6.73 / 20
= 651
It becomes.
この場合、更新後の送話ゲインG3は、(1)式より、
G3=G2−0.5×20×log(X3/1000)dB
=6.73−0.5×20×log(651/1000)dB
=8.60dB
となる。
In this case, the updated transmission gain G3 is calculated from the equation (1):
G3 = G2-0.5 * 20 * log (X3 / 1000) dB
= 6.73−0.5 × 20 × log (651/1000) dB
= 8.60 dB
It becomes.
第4回目の音声認識時の発声では、更新前の送話ゲインがG3=8.60dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX4は、(2)式より、
X4=A4×10G3/20
=300×108.60/20
=807
となる。
In the utterance at the time of the fourth speech recognition, the transmission gain before update is G3 = 8.60 dB and is set in the
X4 = A4 × 10 G3 / 20
= 300 × 10 8.60 / 20
= 807
It becomes.
この場合、更新後の送話ゲインG4は、(1)式より、
G4=G3−0.5×20×log(X4/1000)dB
=8.60−0.5×20×log(807/1000)dB
=9.53dB
となる。
In this case, the updated transmission gain G4 is as follows from the equation (1):
G4 = G3−0.5 × 20 × log (X4 / 1000) dB
= 8.60−0.5 × 20 × log (807/1000) dB
= 9.53 dB
It becomes.
第5回目の音声認識時の発声では、更新前の送話ゲインがG4=9.53dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX5は、(2)式より、
X5=A5×10G4/20
=300×109.53/20
=899
となる。
In the utterance at the time of the fifth speech recognition, the transmission gain before update is G4 = 9.53 dB, and is set in the
X5 = A5 × 10 G4 / 20
= 300 × 10 9.53 / 20
= 899
It becomes.
この場合、更新後の送話ゲインG5は、(1)式より、
G5=G4−0.5×20×log(X5/1000)dB
=9.53−0.5×20×log(899/1000)dB
=9.99dB
となる。
In this case, the updated transmission gain G5 is calculated from the equation (1):
G5 = G4−0.5 × 20 × log (X5 / 1000) dB
= 9.53−0.5 × 20 × log (899/1000) dB
= 9.99 dB
It becomes.
第6回目の音声認識時の発声では、更新前の送話ゲインがG5=9.99dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX6は、(2)式より、
X6=A6×10G5/20
=300×109.99/20
=948
となる。
In the utterance at the time of the sixth speech recognition, the transmission gain before update is G5 = 9.99 dB, and is set in the
X6 = A6 × 10 G5 / 20
= 300 × 10 9.99 / 20
= 948
It becomes.
この場合、更新後の送話ゲインG6は、(1)式より、
G6=G5−0.5×20×log(X6/1000)dB
=9.99−0.5×20×log(948/1000)dB
=10.22dB
となる。
In this case, the updated transmission gain G6 is as follows from the equation (1):
G6 = G5−0.5 × 20 × log (X6 / 1000) dB
= 9.99−0.5 × 20 × log (948/1000) dB
= 10.22 dB
It becomes.
第7回目の音声認識時の発声では、更新前の送話ゲインがG6=10.22dBであり、発声前に増幅器108に設定され、この場合、音声レベル検出部103Aで検出される音声レベルX7は、(2)式より、
X7=A7×10G6/20
=300×1010.22/20
=973
となる。
In the utterance at the time of the seventh speech recognition, the transmission gain before update is G6 = 10.22 dB, and is set in the
X7 = A7 × 10 G6 / 20
= 300 × 10 10.22 / 20
= 973
It becomes.
この場合、更新後の送話ゲインG7は、(1)式より、
G7=G6−0.5×20×log(X7/1000)dB
=10.22−0.5×20×log(973/1000)dB
=10.34dB
となる。
In this case, the updated transmission gain G7 is calculated from the equation (1):
G7 = G6−0.5 × 20 × log (X7 / 1000) dB
= 10.22-0.5 × 20 × log (973/1000) dB
= 10.34 dB
It becomes.
このように、マイクロフォン109からユーザの口までの距離(d1=3cm)が小さく、マイクロフォン109に入力される音声レベルが大きく、音声レベル検出部103Aで検出される音声レベルが適正音声レベルに近い状態で急にマイクロフォン109からユーザの口までの距離(d2=7cm)が大きく、マイクロフォン109に入力される音声レベルが小さくなった場合にも、送話ゲインを更新することにより、第7回目でほぼ最適な送話ゲインになる。
As described above, the distance from the
図13は図1における送話ゲイン設定制御部103Bの送話ゲインの更新処理の一連の別の動作例を説明するフローチャートである。
本図に示すように、ステップ211において、制御部103は操作部104の音声認識開始キー押下を検出し音声認識が起動されるのを検出する。
ステップ212において、送話ゲイン設定制御部103Bは、制御部103の起動検出後、送話ゲイン情報記憶部106Aから送話ゲインの初期値(G0)を読み出し増幅器108に設定する。
FIG. 13 is a flowchart for explaining another series of operation examples of the transmission gain update processing of the transmission gain
As shown in this figure, in step 211, the
In step 212, the transmission gain
ステップ213において、制御部103は、送話ゲイン設定制御部103Bが送話ゲインを増幅器108に設定した後、マイクロフォン109より入力された音声信号を増幅器108で音声認識に適した音声レベルに調整した入力音声に対して、音声認識部111を起動して音声認識させる。
ステップ214において、送話ゲイン設定制御部103Bは音声認識部111からの認識結果の確定を待つ。
In step 213, after the transmission gain
In step 214, the transmission gain
ステップ215において、送話ゲイン設定制御部103Bは、認識結果の確定後、認識結果と音声レベル検出部103Aにより検出された音声レベル情報を取得する。認識結果を表示部105に表示し、スピーカ110に音声で出力させる。
ステップ216において、送話ゲイン設定制御部103Bはタイマをスタートし、次の音声認識起動検出までの時間(TIME)を計測する。
In step 215, the transmission gain
In step 216, the transmission gain
ステップ217において、送話ゲイン設定制御部103Bは、計測された時間TIMEが所定時間Thと比較して、
TIME>Th
が成立する場合には処理を終了する。すなわち、所定時間Th経過しても再度音声認識起動検出が無い場合には、音声認識完了として処理を終了する。
In step 217, the transmission gain
TIME> Th
If is established, the process is terminated. That is, when the voice recognition activation is not detected again even after the predetermined time Th has elapsed, the process is terminated as the voice recognition is completed.
ステップ218において、制御部103は操作部104の音声認識開始キー押下を検出し音声認識が起動されるか否かを検出する。起動が検出されない場合にはステップ217に戻る。
ステップ219において、送話ゲイン設定制御部103Bは、制御部103の起動検出後、送話ゲイン情報記憶部106Aから送話ゲインの初期値(G0)を読み出し増幅器108に設定し、取得した音声レベル情報に基づき送話ゲインの初期値を更新し送話ゲイン情報記憶部106Aに保存し、又は送話ゲイン情報記憶部106Aから更新前の送話ゲイン(Gn-1)を読み出し増幅器108に設定し、取得した音声レベル情報に基づき送話ゲインを更新し、更新した送話ゲイン(Gn)を送話ゲイン情報記憶部106Aに保存し、次回の発声時に更新した送話ゲインを送話ゲイン情報記憶部106Aから読み出し増幅器108に設定する。
In step 218, the
In step 219, the transmission gain
ステップ220において、制御部103は、送話ゲイン設定制御部103Bが送話ゲインを増幅器108に設定した後、マイクロフォン109より入力された音声信号を増幅器108で音声認識に適した音声レベルに調整した入力音声に対して、音声認識部111を起動して音声認識させる。
ステップ221において、送話ゲイン設定制御部103Bは、音声認識部111が音声認識結果を確定するまで音声認識処理を待つ。
In step 220, after the transmission gain
In step 221, the transmission gain
ステップ222において、送話ゲイン設定制御部103Bは、認識結果の確定後、認識結果と音声レベル検出部103Aにより検出された音声レベル情報を取得する。認識結果を表示部105に表示し、スピーカ110に音声で出力させ、ステップ216に戻る。
このようにして、連続起動しない音声認識時には常に送話ゲインの初期値として送話ゲイン情報記憶部106Aに保持している値を使用し、連続起動する音声認識時には送話ゲインを更新し送話ゲインの最適化を行う。すなわち、前回の音声認識で誤認識が生じた場合音声認識の再起動を行い、再起動時には送話ゲインを更新する。
In step 222, the transmission gain
In this way, the value held in the transmission gain
図14は図1における送話ゲイン設定制御部103Bの送話ゲインの更新処理の一連のさらなる別の動作例を説明するフローチャートである。
本図に示すように、ステップ231において、制御部103は操作部104の音声認識開始キー押下を検出し音声認識が起動されるのを検出する。
ステップ232において、送話ゲイン設定制御部103Bは、制御部103の起動検出後、送話ゲイン情報記憶部106Aから更新前の送話ゲイン(Gn-1)を読み出し増幅器108に設定を行う。送話ゲイン情報記憶部106Aに更新前の送話ゲイン(Gn-1)が保持されていない場合には送話ゲインの初期値(G0)を増幅器108に設定する。
FIG. 14 is a flowchart for explaining still another operation example of a series of transmission gain update processing of the transmission gain
As shown in the figure, in step 231, the
In step 232, the transmission gain
ステップ233において、音声レベル検出部103Aで音声レベルXnを検出し、
900≦Xn≦1100
(適正音声レベルC=1000)
の不等式を満たすか否かを判断する。
ステップ234において、この不等式を満たす場合には時定数K=0.5とおき、ステップ236に進む。
In step 233, the audio
900 ≦ Xn ≦ 1100
(Proper audio level C = 1000)
Whether or not the inequality is satisfied.
In step 234, when this inequality is satisfied, the time constant K is set to 0.5 and the process proceeds to step 236.
ステップ235において、この不等式を満たさない場合には時定数K=1.0とおく。
ステップ236において、制御部103は送話ゲイン設定制御部103Bによる送話ゲインを増幅器108に設定後、マイクロフォン109に入力された音声信号を増幅器108で音声認識に適した音声レベルに調整した入力音声に対して、音声認識部111を起動して音声認識させる。
In step 235, if this inequality is not satisfied, the time constant K is set to 1.0.
In step 236, the
ステップ237において、送話ゲイン設定制御部103Bは音声認識部111からの認識結果の確定を待つ。
ステップ238において、送話ゲイン設定制御部103Bは、認識結果の確定後、認識結果と音声レベル検出部103Aにより検出された音声レベル情報を取得する。認識結果を表示部105に表示し、スピーカ110に音声で出力させる。
In step 237, the transmission gain
In
ステップ239において、送話ゲインの更新処理(式(1)参照)を行う。この場合、ステップ234、ステップ235において決定された時定数Kの設定を行う。
ステップ240において、送話ゲイン設定制御部103Bは送話ゲイン情報記憶部106Aに更新された送話ゲイン(Gn)の値を保存し、処理を終了する。
このようにして、音声レベル検出部103Aで検出された音声レベルXnが適正音声レベルCから離れている場合には時定数Kを大きくし、を検出し、音声レベルXnが適正音声レベルCに近い場合には時定数Kを小さくし、適正音声レベルになるまでの発声回数を低減し、最適な送話ゲインを取得することが可能になる。
In step 239, transmission gain update processing (see equation (1)) is performed. In this case, the time constant K determined in step 234 and step 235 is set.
In step 240, the transmission gain
In this way, when the audio level Xn detected by the audio
図15は図1における変形例に係る携帯型情報端末装置の概略構成を示すブロック図である。本図に示すように、図1と比較して、制御部103にテスト部103Cが設けられ、テスト部103Cは、操作部104でテストモードのキー操作により、時定数を調整可能にし、例えば、テスト用の「テスト」という音声認識の発声を複数回行って音声認識部111に音声認識を処理させ、送話ゲイン設定制御部103Bに送話ゲインの最適値を予め求めさせ、送話ゲイン情報記憶部106Aに送話ゲインの初期値として保存させてもよい。
これにより、音声認識時の最適な送話ゲインの設定が容易に行われる。
FIG. 15 is a block diagram showing a schematic configuration of a portable information terminal device according to a modification of FIG. As shown in this figure, compared to FIG. 1, a test unit 103C is provided in the
Thereby, the optimum transmission gain at the time of voice recognition can be easily set.
以上の説明では、携帯型情報端末装置について説明を行ったが、携帯電話機、PHS(簡易型電話機)、ページャ、電子手帳等、さらに、パーソナルコンピュータを含む移動可能な移動機のすべての装置に本発明の利用が可能である。 In the above description, the portable information terminal device has been described. However, the portable information terminal device is not limited to a mobile phone, a PHS (simple phone), a pager, an electronic notebook, or any other mobile device including a personal computer. The invention can be used.
100…携帯型情報端末装置
101…アンテナ
102…無線部
103…制御部
103A…音声レベル検出部
103B…送話ゲイン設定制御部
103C…テスト部
104…操作部
105…表示部
106…メモリ
106A…送話ゲイン情報記憶部
107…A/D・D/Aコンバータ
108…増幅器(アンプ)
109…マイクロフォン
110…スピーカ
111…音声認識部
DESCRIPTION OF
109 ...
Claims (10)
送話部の前記マイクロフォンから出力される音声信号を送話ゲインで増幅する増幅器と、
前記増幅器で増幅された音声レベルを検出する音声レベル検出部と、
送話ゲインの初期値、送話ゲイン、適正音声レベル、送話ゲインを更新するための時定数を記憶する送話ゲイン情報記憶部と、
前記送話ゲイン情報記憶部から送話ゲイン、適正音声レベル、時定数を読み出し、前記増幅器に前記送話ゲインを設定し、前記音声レベル検出部で検出された音声レベルを前記適正音声レベルにすべきゲインに前記時定数を乗じた値を前記送話ゲインに加算して前記送話ゲインを更新し、更新した前記送話ゲインを前記送話ゲイン情報記憶部に記憶させる送話ゲイン設定制御部と、
前記増幅器で増幅された音声信号を入力して音声認識を行う音声認識部とを備えることを特徴とする音声認識装置。 In a speech recognition device that recognizes speech input to the microphone of the transmitter,
An amplifier that amplifies the audio signal output from the microphone of the transmission unit by a transmission gain;
A sound level detector for detecting a sound level amplified by the amplifier;
A transmission gain information storage unit for storing an initial value of the transmission gain, a transmission gain, an appropriate voice level, and a time constant for updating the transmission gain;
The transmission gain, appropriate sound level, and time constant are read from the transmission gain information storage unit, the transmission gain is set in the amplifier, and the sound level detected by the sound level detection unit is set to the appropriate sound level. A transmission gain setting control unit that updates a transmission gain by adding a value obtained by multiplying a power gain by the time constant to the transmission gain, and stores the updated transmission gain in the transmission gain information storage unit When,
A speech recognition apparatus comprising: a speech recognition unit that performs speech recognition by inputting the speech signal amplified by the amplifier.
Gn=Gn-1−K×20×log(Xn/C)dB
(K:送話ゲインの更新の時定数(0.0<K≦1.0)、
n:音声認識回数(=1,2、3…)、
C:適正音声レベル、
Xn:音声レベル検出部で検出された音声レベル)
で表されることを特徴とする、請求項1に記載の音声認識装置。 The transmission gain Gn updated by the transmission gain setting control unit is expressed by the following equation: Gn = Gn-1−K × 20 × log (Xn / C) dB
(K: Time constant for updating transmission gain (0.0 <K ≦ 1.0),
n: Number of voice recognition (= 1, 2, 3 ...),
C: Appropriate audio level,
Xn: voice level detected by the voice level detector
The speech recognition apparatus according to claim 1, wherein
適正音声レベル、送話ゲインを記憶する工程と、
送話部の前記マイクロフォンから出力される音声信号を前記送話ゲインで増幅する工程と、
増幅された音声レベルを検出する工程と、
検出された前記音声レベルを前記適正音声レベルにすべきゲインに時定数を乗じた値を前記送話ゲインに加算して前記送話ゲインを更新し更新した送話ゲインを記憶する工程と、
増幅された音声信号を入力して音声認識を行う工程とを備えることを特徴とする音声認識方法。 In a speech recognition method for recognizing speech input to a microphone of a transmitter,
Storing a proper voice level and transmission gain;
Amplifying the audio signal output from the microphone of the transmission unit by the transmission gain;
Detecting the amplified audio level;
Adding the value obtained by multiplying the detected voice level to the appropriate voice level by a time constant to the transmission gain to update the transmission gain and storing the updated transmission gain;
And a step of performing speech recognition by inputting the amplified speech signal.
前記携帯型情報端末装置の携帯情報端末機能に加えて、請求項8に記載の方法に基づく音声認識機能を備えることを特徴とする、音声認識方法を用いた携帯型情報端末装置。 In a portable information terminal device using a speech recognition method,
A portable information terminal device using a voice recognition method, comprising a voice recognition function based on the method according to claim 8 in addition to the portable information terminal function of the portable information terminal device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004335175A JP4299768B2 (en) | 2004-11-18 | 2004-11-18 | Voice recognition device, method, and portable information terminal device using voice recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004335175A JP4299768B2 (en) | 2004-11-18 | 2004-11-18 | Voice recognition device, method, and portable information terminal device using voice recognition method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006145791A true JP2006145791A (en) | 2006-06-08 |
JP4299768B2 JP4299768B2 (en) | 2009-07-22 |
Family
ID=36625579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004335175A Expired - Fee Related JP4299768B2 (en) | 2004-11-18 | 2004-11-18 | Voice recognition device, method, and portable information terminal device using voice recognition method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4299768B2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010232780A (en) * | 2009-03-26 | 2010-10-14 | Brother Ind Ltd | Apparatus, method and program for communication control |
CN111344780A (en) * | 2017-08-30 | 2020-06-26 | 亚马逊技术股份有限公司 | Context-based device arbitration |
WO2020203384A1 (en) * | 2019-04-04 | 2020-10-08 | 日本電信電話株式会社 | Volume adjustment device, volume adjustment method, and program |
WO2021177049A1 (en) * | 2020-03-02 | 2021-09-10 | 菱洋エレクトロ株式会社 | Voice recognition system and voice recognition device |
-
2004
- 2004-11-18 JP JP2004335175A patent/JP4299768B2/en not_active Expired - Fee Related
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010232780A (en) * | 2009-03-26 | 2010-10-14 | Brother Ind Ltd | Apparatus, method and program for communication control |
US8521525B2 (en) | 2009-03-26 | 2013-08-27 | Brother Kogyo Kabushiki Kaisha | Communication control apparatus, communication control method, and non-transitory computer-readable medium storing a communication control program for converting sound data into text data |
CN111344780A (en) * | 2017-08-30 | 2020-06-26 | 亚马逊技术股份有限公司 | Context-based device arbitration |
WO2020203384A1 (en) * | 2019-04-04 | 2020-10-08 | 日本電信電話株式会社 | Volume adjustment device, volume adjustment method, and program |
JP2020170101A (en) * | 2019-04-04 | 2020-10-15 | 日本電信電話株式会社 | Sound volume adjustment device, method therefor, and program |
WO2021177049A1 (en) * | 2020-03-02 | 2021-09-10 | 菱洋エレクトロ株式会社 | Voice recognition system and voice recognition device |
JP2021139935A (en) * | 2020-03-02 | 2021-09-16 | 菱洋エレクトロ株式会社 | Voice recognition system and voice recognition device |
Also Published As
Publication number | Publication date |
---|---|
JP4299768B2 (en) | 2009-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6445799B1 (en) | Noise cancellation earpiece | |
JP3225918B2 (en) | Mobile terminal device | |
US20050207586A1 (en) | Mobile communication earphone accommodating hearing aid with volume adjusting function and method thereof | |
JP4299768B2 (en) | Voice recognition device, method, and portable information terminal device using voice recognition method | |
JPH11239093A (en) | Mobile radio communication device | |
US20220139414A1 (en) | Communication device and sidetone volume adjusting method thereof | |
US9099095B2 (en) | Apparatus and method of processing a received voice signal in a mobile terminal | |
JP2586847B2 (en) | Electronic telephone | |
JPH11194797A (en) | Speech recognition operating device | |
JP2004242050A (en) | Radio terminal and method for adjusting sound volume of received call thereof | |
KR100810702B1 (en) | Method and apparatus for automatic volume control, and mobile communication terminal using the same | |
KR100561774B1 (en) | Method for adjusting a volume of voice automatically | |
KR101130711B1 (en) | Apparatus and method for control of speech quality in mobile communication station | |
KR100636355B1 (en) | Volume control method of speaker phone for preventing injure of the eardrum and cellular phone thereof | |
KR100678052B1 (en) | Device and method for controlling echo of mobile phone | |
KR100386414B1 (en) | A speaker phone using in a mobile phone and method of removing a howling in a speaker phone | |
JPH11163977A (en) | Portable telephone set | |
KR100369647B1 (en) | Gain controlling methode for analyzing of hand-free function | |
JP2001177607A (en) | Automatic sound volume control method for telephone set and its controller | |
KR100362561B1 (en) | Method for processing an output signal of speaker in mobile wireless terminal | |
KR100917188B1 (en) | Method for controlling bell volume of mobile phone | |
JPH0748771B2 (en) | Loud phone | |
JP2000069141A (en) | Telephone set with speech recognition function | |
JPH04216216A (en) | Transmitting sound volume optimizing circuit for speaking device | |
JP2006270300A (en) | Apparatus for controlling received sound volume |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080526 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080717 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080825 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090330 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090417 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120424 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |