JP2010102223A - Voice articulation improving method and voice articulation improving system - Google Patents

Voice articulation improving method and voice articulation improving system Download PDF

Info

Publication number
JP2010102223A
JP2010102223A JP2008275277A JP2008275277A JP2010102223A JP 2010102223 A JP2010102223 A JP 2010102223A JP 2008275277 A JP2008275277 A JP 2008275277A JP 2008275277 A JP2008275277 A JP 2008275277A JP 2010102223 A JP2010102223 A JP 2010102223A
Authority
JP
Japan
Prior art keywords
audio data
unit
noise
time
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008275277A
Other languages
Japanese (ja)
Other versions
JP5339849B2 (en
Inventor
Yohei Yabuta
洋平 薮田
Nozomi Saito
望 齊藤
Toru Marumoto
徹 丸本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2008275277A priority Critical patent/JP5339849B2/en
Publication of JP2010102223A publication Critical patent/JP2010102223A/en
Application granted granted Critical
Publication of JP5339849B2 publication Critical patent/JP5339849B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a voice articulation improving method and a voice articulation improving system capable of improving an effect by voice articulation improving processing by accurately measuring noise power even if there is a delay from a time when a voice data RG are generated to a time when the voice is detected by a microphone. <P>SOLUTION: A voice data stream which is outputted by a voice data generating section is multiplied by a predetermined gain and inputted to a speaker, and a voice signal detected by the microphone is taken at a predetermined length unit. An output start time and an output end time of the voice data stream are monitored, and a taking start time and an end time of the voice data stream of the predetermined length which is taken by the microphone are monitored. It is determined whether or not the voice data stream of the predetermined length which is taken by the microphone is the voice data stream in a noise section by using each of the time, and the noise power is detected by using the voice data stream of the noise section. When it is not the noise section, voice power is detected based on the voice data stream, the gain which is multiplied with the voice data stream is determined by using the noise power and the voice power. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は音声明瞭度改善方法および音声明瞭度改善システムに係り、特に、案内音声信号が出力されていない区間を騒音区間とし、該騒音区間における騒音パワーと非騒音区間における音声パワーを用いて案内音声信号のゲインを制御する音声明瞭度改善方法および音声明瞭度改善システムに関する。   The present invention relates to a speech intelligibility improving method and a speech intelligibility improving system, and in particular, a section where no guidance voice signal is output is defined as a noise section, and guidance is performed using noise power in the noise section and voice power in a non-noise section. The present invention relates to a speech intelligibility improving method and a speech intelligibility improving system for controlling a gain of an audio signal.

スピーカから出力された音声(ナビゲーションガイド音声や,ニュースやメールの読上げ音声等)を騒音下でも明瞭に聞こえるようにする車載の音声明瞭度改善システムがある。例えば、車載用ナビゲーション装置では進路案内等の音声がスピーカから車室内に出力されるが、走行中などでエンジン音、ロードノイズ等の騒音が大きいときはマスキング効果でスピーカ出力音声が聞きづらくなる。そこで、出力する音声データのパワーと騒音のパワーに応じて音声データにラウドネス補償を施して音声帯域全体のゲインを上げるなどして騒音下でもスピーカ出力音声が明瞭に聞こえるようにしている。   There is an in-vehicle speech intelligibility improvement system that makes it possible to clearly hear voices (navigation guide voices, news and mail reading voices) output from speakers even under noisy conditions. For example, in an in-vehicle navigation device, sound such as route guidance is output from a speaker to a vehicle interior, but when noise such as engine sound and road noise is high during traveling, it is difficult to hear the speaker output sound due to a masking effect. Therefore, the loudspeaker output sound can be clearly heard even under noise by performing loudness compensation on the sound data according to the power of the sound data to be output and the power of the noise to increase the gain of the entire sound band.

図7は従来の音声明瞭度改善システム(特許文献1)の構成図である。図7の音声明瞭度改善システムによれば(詳細な動作は特許文献1参照)、同定フィルタ71によりマイク72の設置位置における案内音声信号SGを模擬し、減算器73により、マイク72の出力から前記信号を引くことによって騒音信号SNを抽出している。ラウドネス補償ゲイン算出部74では、案内音声信号および騒音信号のそれぞれの信号をもとにゲインGoptを算出してRG補正部(RouteGuidance音声補正部)75に入力している。この際、同定用フィルタ76における同定処理は、適応フィルタ77を用いて行われ、この中の適応アルゴリズム部78は、種々の適応アルゴリズムを用いて実現することができ、その代表的なものの一つがLMSアルゴリズムであるが、Fast-LMSアルゴリズム(周波数領域におけるLMSアルゴリズム)等を使用してフィルタ係数の更新を行うようにしてもよい。   FIG. 7 is a configuration diagram of a conventional speech intelligibility improvement system (Patent Document 1). According to the speech intelligibility improving system of FIG. 7 (refer to Patent Document 1 for detailed operation), the identification voice 71 simulates the guidance voice signal SG at the installation position of the microphone 72, and the subtractor 73 from the output of the microphone 72. The noise signal SN is extracted by subtracting the signal. The loudness compensation gain calculation unit 74 calculates the gain Gopt based on the guidance voice signal and the noise signal and inputs the gain Gopt to the RG correction unit (RouteGuidance voice correction unit) 75. At this time, the identification processing in the identification filter 76 is performed using the adaptive filter 77, and the adaptive algorithm unit 78 therein can be realized using various adaptive algorithms, and one of the typical ones is as follows. Although it is the LMS algorithm, the filter coefficient may be updated using a Fast-LMS algorithm (LMS algorithm in the frequency domain) or the like.

しかし、音声信号のパワーに推定誤差が生じると、減算器73による減算によって算出される騒音推定パワーの誤差が、音声信号の推定パワーの誤差の符号と逆符号となり、差幅が大きくなってゲインを正しく決定できなくなる。また、従来の音声明瞭度改善システムでは演算量が多すぎて高価なDSPが必要とされる問題がある。   However, if an estimation error occurs in the power of the audio signal, the error in the noise estimation power calculated by subtraction by the subtracter 73 becomes opposite to the sign of the error in the estimation power of the audio signal, and the difference width increases and the gain increases. Cannot be determined correctly. In addition, the conventional speech intelligibility improving system has a problem that an expensive DSP is required due to an excessive amount of calculation.

そこで、音声信号の音声パワーと騒音パワーとに基づき音声信号のゲインを制御するシステムにおいて音声パワーが設定レベル以上であるか否かを検出し、すなわち案内音声が出力されているか否かを検出し、音声パワーが設定レベルより小さいとき(案内音声が出力されていないとき)の騒音パワーを測定して保存し、音声パワーが設定レベルより大きいとき(案内音声が出力されているとき)の騒音パワーを前記保存してあるパワーであると推定し、音声パワーと推定した騒音パワーとに基づいて音声信号のゲインを制御する技術が提案されている。   Therefore, in the system that controls the gain of the audio signal based on the audio power and noise power of the audio signal, it is detected whether or not the audio power is above the set level, that is, whether or not the guidance audio is being output. Measure and save the noise power when the voice power is lower than the set level (when no guidance voice is output), and save the noise power when the voice power is higher than the set level (when the guidance voice is output) Has been proposed to control the gain of the audio signal based on the audio power and the estimated noise power.

図8は上記提案されている音声明瞭度改善システムの構成図である。
ナビゲーション装置の案内音声発生部81は、例えば交差点に接近したとき案内音声信号を発生する。サウンドドライバ82はこの案内音声信号に音質制御等を施し、増幅して出力する。RG補正部83は後述する補正値算出部84で決定したゲインgをサウンドドライバ82より出力される音声信号に乗算し、音量補正してDAC85に入力し、DAC85は入力された音声信号をアナログ変換してスピーカ86に入力する。スピーカ86は入力音声信号を出力する。マイク87は案内音声aと周辺の騒音n(エンジン音、ロードノイズ等)の合成音を検出してADC88でディジタルデータに変換し聴感補正フィルタ89aを介してパワー計算部89bに入力する。パワー計算部89bは入力されたマイク検出信号の振幅の二乗演算を行なってパワーを計算し、切替部89cに入力する。
FIG. 8 is a block diagram of the proposed speech intelligibility improving system.
The guidance voice generation unit 81 of the navigation device generates a guidance voice signal when approaching an intersection, for example. The sound driver 82 performs sound quality control on the guidance voice signal, amplifies it, and outputs it. The RG correction unit 83 multiplies the audio signal output from the sound driver 82 by the gain g determined by the correction value calculation unit 84, which will be described later, corrects the volume, and inputs it to the DAC 85. The DAC 85 converts the input audio signal into an analog signal. And input to the speaker 86. The speaker 86 outputs an input audio signal. The microphone 87 detects the synthesized sound of the guidance voice a and the surrounding noise n (engine sound, road noise, etc.), converts it into digital data by the ADC 88, and inputs it to the power calculator 89b via the audibility correction filter 89a. The power calculation unit 89b calculates the power by performing the square calculation of the amplitude of the input microphone detection signal, and inputs the power to the switching unit 89c.

切替部89cは、ガイド音声が出力されていない区間において、すなわち、音声信号のパワー(音声パワー)が設定値より小さいとき、パワー計算部89bで計算されたパワーを、固定接点Aを介して騒音パワー平均化部84bに入力し、ガイド音声が出力されている区間において、すなわち、音声パワーが設定値より大きいとき、パワー計算部89bで計算されたパワーをB接点側に出力していずれのユニットにも入力しない。騒音パワー平均化部84bは、ガイド音声が出力されていない区間において、パワー計算部89bから出力するパワーを騒音パワーと見なし、パワー計算部89bから出力する最新のN個(N:定数)のパワーの移動平均値を求め、該移動平均値を騒音パワーとしてパワー保存部84cに保存する。この結果、ガイド音声が出力されたとき、直前のガイド音声が出力されていない区間における最新の騒音パワーがパワー保存部84cに保存されていることになる。ガイド音声出力中の騒音パワーは、パワー保存部84cに保存されている騒音パワーであると見なし、パワー保存部84cに保存されている騒音パワーをラウドネス補償ゲイン算出部84aに入力する。   The switching unit 89c uses the power calculated by the power calculation unit 89b as noise via the fixed contact A in a section where no guide voice is output, that is, when the power of the audio signal (audio power) is smaller than the set value. In the section in which the guide voice is output, which is input to the power averaging unit 84b, that is, when the voice power is larger than the set value, the power calculated by the power calculation unit 89b is output to the B contact side and any unit Also do not enter. The noise power averaging unit 84b regards the power output from the power calculation unit 89b as noise power in a section where no guide voice is output, and the latest N (N: constant) powers output from the power calculation unit 89b. And the moving average value is stored as noise power in the power storage unit 84c. As a result, when the guide voice is output, the latest noise power in the section where the previous guide voice is not output is stored in the power storage unit 84c. The noise power during the output of the guide voice is regarded as the noise power stored in the power storage unit 84c, and the noise power stored in the power storage unit 84c is input to the loudness compensation gain calculation unit 84a.

以上と並行して、案内音声発生部81から出力される音声信号は、聴感補正フィルタ89eを介して音声パワー計算部89fに入力する。音声パワー計算部89fは入力された音声信号の振幅の二乗演算を行なって音声パワーを計算し、該音声パワーを判定部89gと音声パワー平均化部89hに入力する。判定部89gは、入力された音声パワーと設定レベルとを比較し、音声パワーが設定レベルより小さいときはガイド音声が出力されていない区間であると判定し、音声パワーが設定レベルより大きいときはガイド音声が出力されている区間であると判定する。そして、判定部89gは、ガイド音声が出力されていない区間では切替器89cを制御してパワー計算部89bが計算したパワーを騒音パワー平均化部84bに入力し、ガイド音声が出力されている区間では、何れのユニットにも入力しない。音声パワー平均化部89hは音声パワー計算部89fから出力するM個(M:定数)の音声パワーの平均値を演算し可変ゲイン部84dに入力し、可変ゲイン部84dは設定されているゲインGを平均音声パワーに乗算してラウドネス補償ゲイン算出部84aに入力する。なお、可変ゲイン部84dにより設定されるゲインGは、スピーカ86の入力端子からマイク出力端子までの伝播特性をゲインのみで近似できると見なして、特性同定部89iが該ゲインGを別途求めて設定するものである。ラウドネス補償制御部89aは、ガイド音声が出力されている区間において、可変ゲイン部84dから入力する音声パワーとパワー保存部84cから入力する騒音パワーに基づき、騒音のレベルによらず案内音声が明瞭に聞こえるゲインgを人のラウドネス特性により決定して補正部83に入力し、RG補正部83は該ゲインgを入力され、案内音声信号にゲインgを乗算して出力する。なお、ラウドネス補償制御部84aは、ガイド音声が出力されていない区間では、ゲインgの決定制御を行なわない。   In parallel with the above, the voice signal output from the guidance voice generator 81 is input to the voice power calculator 89f via the audibility correction filter 89e. The audio power calculation unit 89f calculates the audio power by performing the square calculation of the amplitude of the input audio signal, and inputs the audio power to the determination unit 89g and the audio power averaging unit 89h. The determination unit 89g compares the input sound power with the set level, determines that the guide sound is not output when the sound power is lower than the set level, and when the sound power is higher than the set level. It determines with it being the area where the guide sound is output. Then, the determination unit 89g controls the switch 89c to input the power calculated by the power calculation unit 89b to the noise power averaging unit 84b in the section where the guide voice is not output, and outputs the guide voice. Then, it does not input to any unit. The audio power averaging unit 89h calculates an average value of M (M: constant) audio powers output from the audio power calculation unit 89f and inputs the average value to the variable gain unit 84d. The variable gain unit 84d sets the gain G that is set. Is multiplied by the average voice power and input to the loudness compensation gain calculator 84a. Note that the gain G set by the variable gain unit 84d is set by separately obtaining the gain G by assuming that the propagation characteristic from the input terminal of the speaker 86 to the microphone output terminal can be approximated only by the gain. To do. The loudness compensation control unit 89a makes the guidance voice clear regardless of the noise level based on the voice power input from the variable gain unit 84d and the noise power input from the power storage unit 84c in the section where the guide voice is output. The audible gain g is determined by the human loudness characteristic and input to the correction unit 83. The RG correction unit 83 receives the gain g, multiplies the guidance voice signal by the gain g, and outputs the result. Note that the loudness compensation control unit 84a does not perform the gain g determination control in a section where no guide voice is output.

図9は図8の音声明瞭度改善システムをマルチプロセスの汎用CPU91とDSP(Digital Signal Processor)80とで実現する例であり、図8と同一部分には同一符号を付している。DSP80は、図8におけるRG補正部83、補正値算出部84、騒音分離部89の機能を実行し、マルチプロセスの汎用CPU91は図8の案内音声発生部81の案内音声データ作成処理、該案内音声データのサウンドドライバ82への受け渡し処理等の音声再生処理(VOICEアプリ)91dを行う。汎用CPU91はかかる音声再生処理に加えて、ナビゲーション処理91a、車載オーディオ処理91b、自動車電話処理91c等の複数のアプリケーションを実行するようになっており、優先順位の高い処理を優先的に実行するようになっている。   FIG. 9 shows an example in which the speech intelligibility improvement system of FIG. 8 is realized by a multi-process general-purpose CPU 91 and a DSP (Digital Signal Processor) 80, and the same parts as those in FIG. The DSP 80 executes the functions of the RG correction unit 83, the correction value calculation unit 84, and the noise separation unit 89 in FIG. 8, and the multi-process general-purpose CPU 91 performs guidance voice data creation processing of the guidance voice generation unit 81 in FIG. An audio reproduction process (VOICE application) 91d such as a process of transferring audio data to the sound driver 82 is performed. The general-purpose CPU 91 executes a plurality of applications such as a navigation process 91a, an in-vehicle audio process 91b, and a car phone process 91c in addition to the sound reproduction process, and preferentially executes a process with a high priority. It has become.

音声再生処理において、RG生成部81bは案内音声データ保存部81aから符号化された案内音声データを読み出して復号してRG再生部81cに入力すると共に、RG再生部81cは該入力された音声データを一時的に保存し、適宜、該音声データRGをサウンドドライバ82に入力する。サウンドドライバ82は音声データに所定の処理を施して、サウンドドライバ82を介してRG補正部83に入力し、RG補正部83は入力された音声データRGに補正値算出部84が算出した補正値(ゲイン)を乗算し音量補正を行い、補正された音声信号RG’をアナログ信号に変換してスピーカ86に入力する。スピーカ86は入力された音声信号RG’を出力し、マイク87は該音声信号と周囲の雑音を検出し、検出データ(MICデータ)をADC88を介して騒音分離部89に入力する。騒音分離部89はMICデータと案内音声データRGとを用いて案内音声パワーのレベルと騒音パワーのレベルを算出し、補正値算出部84に入力する。補正値算出部84は入力された案内音声パワーのレベルと騒音パワーのレベルに基づいてゲインを算出し、ゲインをRG補正部83に入力し、RG補正部83は入力された補正値を音声データに乗算して出力する。これにより音声信号のゲインが大幅に誤差を持たないようになり、かつ演算量を大幅に削減することができる。
なお、DSPを用いず、マルチプロセスの汎用CPU91のみを用いて、汎用CPU上で音声明瞭度改善処理を行うことも提案されている。
特開平11−166835号公報
In the voice reproduction process, the RG generation unit 81b reads the guidance voice data encoded from the guidance voice data storage unit 81a, decodes it, and inputs it to the RG playback unit 81c. The RG playback unit 81c receives the input voice data. Is temporarily stored, and the sound data RG is input to the sound driver 82 as appropriate. The sound driver 82 performs predetermined processing on the sound data and inputs the sound data to the RG correction unit 83 via the sound driver 82. The RG correction unit 83 calculates the correction value calculated by the correction value calculation unit 84 to the input sound data RG. (Gain) is multiplied to perform volume correction, and the corrected audio signal RG ′ is converted into an analog signal and input to the speaker 86. The speaker 86 outputs the input audio signal RG ′, and the microphone 87 detects the audio signal and ambient noise, and inputs detection data (MIC data) to the noise separation unit 89 via the ADC 88. The noise separation unit 89 calculates the guidance voice power level and the noise power level using the MIC data and the guidance voice data RG, and inputs them to the correction value calculation unit 84. The correction value calculation unit 84 calculates a gain based on the input guidance voice power level and the noise power level, and inputs the gain to the RG correction unit 83. The RG correction unit 83 uses the input correction value as voice data. Multiply by and output. As a result, the gain of the audio signal has no significant error, and the amount of calculation can be greatly reduced.
Note that it has also been proposed to perform speech intelligibility improvement processing on a general-purpose CPU using only a multi-process general-purpose CPU 91 without using a DSP.
Japanese Patent Laid-Open No. 11-166835

しかし、上記提案されている技術において、汎用のCPUで複数のアプリケーションの処理を行うマルチプロセスではそれぞれのアプリケーションに優先順位が設けられており、常に音声明瞭度改善システムの処理が行われるわけではなく音声データがRG生成部で生成されてスピーカ出力されたRG音声がマイクにより検出されて騒音分離部に入力するまでに時間的遅延が生じる。具体的に図10を用いて説明する。尚、図10では、図9のDSP80の処理を汎用CPU91に実行させる場合を示しており、GAE部(補正部83,補正値算出部84,騒音分離部89)、サウンドドライバ82、RG再生部81c等の配置を変更している。汎用CPU91上のRG再生部81cの処理は優先順位が低く、RG補正部83から入力した音声データをサウンドドライバ82に直ちに出力できるとは限らず、内蔵のバッファに滞留して遅延が生じ、しかも、他の部分でも遅延が生じる。この結果、RG生成部81bが音声データRGを騒音分離部89に入力してから相当の時間が経過してからサウンドドライバ82がマイク検出音声データを騒音分離部89に入力される。かかる遅延が発生すると正確な騒音パワーの測定ができず、音声明瞭度改善処理による効果が低下する。図11は騒音パワーが正確に測定できないことを説明するタイムチャートであり、音声データRGの出力開始時刻RGtime-S、音声データRGの出力終了時刻をRGtime-E、マイクによる音声信号の取り込み開始時刻をMICtime-S、マイクによる音声信号の取り込み終了時刻をMICtime-Eとしている。時刻RGtime-S以前と時刻RGtime-E以降が騒音区間であり、時刻RGtime-S〜RGtime-Eが非騒音区間である。最初の騒音区間では期間Aで音声が出力されていないため騒音パワーの測定誤差はないが、あとの騒音区間では期間Bで音声が出力されているため、該音声も騒音として検出し、正確な騒音パワーを測定できない。   However, in the proposed technique, in a multi-process in which a general-purpose CPU processes a plurality of applications, each application has a priority, and the processing of the speech intelligibility improvement system is not always performed. There is a time delay until the RG sound generated by the RG generation unit and output from the speaker by the microphone is detected by the microphone and input to the noise separation unit. This will be specifically described with reference to FIG. FIG. 10 shows a case where the general-purpose CPU 91 executes the processing of the DSP 80 of FIG. 9. The GAE unit (correction unit 83, correction value calculation unit 84, noise separation unit 89), sound driver 82, RG reproduction unit The arrangement of 81c and the like is changed. The processing of the RG playback unit 81c on the general-purpose CPU 91 has a low priority, and the audio data input from the RG correction unit 83 cannot always be output immediately to the sound driver 82, but stays in the built-in buffer and causes a delay. In other parts, delay occurs. As a result, the sound driver 82 inputs the microphone detection voice data to the noise separation unit 89 after a considerable time has elapsed after the RG generation unit 81 b inputs the voice data RG to the noise separation unit 89. When such a delay occurs, accurate noise power cannot be measured, and the effect of the speech intelligibility improvement processing is reduced. FIG. 11 is a time chart for explaining that the noise power cannot be measured accurately. The output start time RGtime-S of the audio data RG, the output end time of the audio data RG is RGtime-E, and the start of capturing the audio signal by the microphone. Is MICtime-S, and the end time of audio signal capture by the microphone is MICtime-E. Times before RGtime-S and after time RGtime-E are noise intervals, and times RGtime-S to RGtime-E are non-noise intervals. There is no measurement error of noise power in the first noise section because no sound is output in period A, but since the sound is output in period B in the subsequent noise section, the sound is also detected as noise and accurate. Noise power cannot be measured.

以上より、本発明の目的は音声データRGが発生してからマイクにより音声が検出されるまでに遅延があっても騒音パワーを正確に測定できるようにすることである。
本発明の別の目的は、音声明瞭度改善処理による効果を改善することである。
As described above, an object of the present invention is to enable accurate measurement of noise power even when there is a delay between the generation of audio data RG and the detection of audio by a microphone.
Another object of the present invention is to improve the effect of the speech intelligibility improving process.

本発明は、音声明瞭度改善方法および音声明瞭度改善システムである。
・ 音声明瞭度改善方法
本発明の音声明瞭度改善方法は、マルチプロセスの1つのプロセスとして音声データ発生部が出力する音声データ列に所定のゲインを乗算してスピーカ側に出力すると共に、マイクにより検出された音声信号をディジタルデータに変換して所定長単位で取り込む第1ステップ、前記音声データ列のスピーカ側への出力開始時刻と出力終了時刻を監視し、かつ、前記マイクより取り込んだ所定長の音声データ列の取り込み開始時刻と取り込み終了時刻を監視する第2ステップ、前記各時刻を用いて前記マイクより取り込んだ所定長の音声データ列が騒音区間の音声データ列であるか否か判定する第3ステップ、前記騒音区間の音声データ列を用いて騒音パワーを検出する第4ステップ、を備えており、前記騒音区間でないときに、前記音声データ発生部が出力する音声データ列に基づいて音声パワーを検出する第5ステップ、前記騒音パワーと前記音声パワーを用いて前記音声データ列に乗算するゲインを決定する第6ステップ、を備えている。
The present invention is a speech intelligibility improving method and a speech intelligibility improving system.
-Speech intelligibility improvement method The speech intelligibility improvement method according to the present invention is a multi-process in which a speech data sequence output by an audio data generation unit is multiplied by a predetermined gain and output to a speaker side, and also by a microphone. A first step of converting the detected audio signal into digital data and taking it in a predetermined length unit, monitoring an output start time and an output end time of the audio data string to the speaker side, and taking a predetermined length taken from the microphone A second step of monitoring the acquisition start time and the acquisition end time of the audio data sequence, and determining whether the audio data sequence of a predetermined length acquired from the microphone using each time is an audio data sequence of a noise section A third step, and a fourth step of detecting noise power using the voice data string of the noise section, Sometimes, a fifth step of detecting voice power based on the voice data string output from the voice data generating unit, and a sixth step of determining a gain to be multiplied by the voice data string using the noise power and the voice power. It is equipped with.

・ 音声明瞭度改善システム
本発明の音声明瞭度改善システムは、音声データ列を発生する音声データ発生部と、前記音声データ列を入力され、音声データをアナログデータに変換してスピーカへ出力する音声信号出力部と、マイクにより検出された音声信号をディジタルデータに変換して所定長単位で取り込む音声データ取り込み部と、前記音声データ列の前記音声信号出力部への入力開始時刻と入力終了時刻と、前記音声データ取り込み部における所定長の音声データ列の取り込み開始時刻と所定長の音声データ列の取り込み終了時刻を監視する時刻監視部と、前記各時刻を用いて前記音声データ取り込み部より取り込んだ所定長の音声データ列が騒音区間の音声データ列であるか判定する騒音区間判定部と、前記音声データ取り込み部に取り込まれた前記騒音区間の音声データ列を用いて騒音パワーを検出する騒音パワー検出部と、前記騒音パワーを用いて、前記出力する音声データ列に乗算するゲインを算出する補正値算出部と、前記算出したゲインを前記音声データ発生部が発生する音声データ列に乗算して前記音声信号出力部に入力する補正部と、を備えており、前記騒音区間でないときに、前記音声データ発生部が出力する音声データ列に基づいて音声パワーを検出する音声パワー検出部、を更に備え、前記補正値算出部は前記騒音パワーと前記音声パワーを比較して前記音声データ列に乗算するゲインを決定する。
-Voice intelligibility improvement system The audio intelligibility improvement system of this invention is the audio | voice data generation part which produces | generates an audio | voice data sequence, and the audio | voice which receives the said audio | voice data sequence, converts audio | speech data into analog data, and outputs it to a speaker A signal output unit, a sound data capturing unit that converts the sound signal detected by the microphone into digital data and captures the data in units of a predetermined length, and an input start time and an input end time of the sound data string to the sound signal output unit; A time monitoring unit for monitoring a start time for capturing a predetermined length of audio data string and a time for capturing a predetermined length of audio data string in the sound data capturing unit, and a time monitoring unit for capturing the sound data using the respective times. A noise section determination unit for determining whether a predetermined length of the voice data string is a voice data string of a noise section; and the voice data capturing unit A noise power detection unit that detects noise power using the captured audio data sequence of the noise section; a correction value calculation unit that calculates a gain to be multiplied to the output audio data sequence using the noise power; A correction unit that multiplies the calculated gain by an audio data sequence generated by the audio data generation unit and inputs the result to the audio signal output unit, and when the audio data generation unit is not in the noise section, An audio power detection unit that detects audio power based on the audio data sequence to be output; and the correction value calculation unit compares the noise power with the audio power to determine a gain for multiplying the audio data sequence. .

本発明の別の音声明瞭度改善システムは、前記音声データ発生部と、時刻監視部と、騒音区間判定部と、騒音パワー検出部と、補正値算出部と補正部の各処理をマルチプロセスの1つのプロセスとしてCPUにより実現する。   Another speech intelligibility improvement system according to the present invention includes a multi-process process for each of the speech data generation unit, the time monitoring unit, the noise section determination unit, the noise power detection unit, the correction value calculation unit, and the correction unit. It is realized by the CPU as one process.

本発明の別の音声明瞭度改善システムは、前記音声データ発生部と、入力された音声データ列を別のCPUに出力する音声データ出力部の各処理をマルチプロセスの1つのプロセスとして、CPUにより実現し、時刻監視部と、騒音区間判定部と、騒音パワー検出部と、音声信号出力部の各処理をマルチプロセスの1つのプロセスとして別のCPUにより実現する。   Another speech intelligibility improvement system according to the present invention includes a process in which each process of the voice data generation unit and the voice data output unit that outputs an input voice data string to another CPU is performed as one multi-process. The processing of the time monitoring unit, the noise section determination unit, the noise power detection unit, and the audio signal output unit is realized by another CPU as one multi-process.

本発明によれば、音声データ列のスピーカ側への入力開始時刻と入力終了時刻と、マイクより取り込んだ所定長の音声データ列の取り込み開始時刻と取り込み終了時刻とを監視し、それぞれの時刻を用いて、マイクより取り込んだ所定長の音声データ列が騒音区間の音声データ列であるか判断するようにしたので、音声を騒音として検出することがなくなり、正確な騒音パワーを測定することができる。   According to the present invention, the input start time and the input end time to the speaker side of the audio data sequence, and the acquisition start time and the acquisition end time of the audio data sequence of a predetermined length acquired from the microphone are monitored, and the respective times are monitored. Since it is determined whether or not the audio data string of a predetermined length captured from the microphone is an audio data string in the noise section, the voice is not detected as noise, and accurate noise power can be measured. .

また本発明によれば、正しく騒音区間の騒音パワーを用いてスピーカに入力する音声データ列に乗算するゲインを決定するようにしたので、正確に音声明瞭度改善処理を行うことができ、騒音下でもスピーカ出力音声が明瞭に聞こえるようにすることができる。   Further, according to the present invention, the gain for multiplying the audio data string input to the speaker is determined correctly using the noise power of the noise section, so that the speech intelligibility improvement process can be performed accurately, and the noise level is reduced. However, the speaker output sound can be heard clearly.

・ 本発明の概略
図1は本発明の概略説明図、図2はマイク検出データが騒音区間の音声データであるかを示す説明図である。図1において、10は汎用CPU、11はRGデータ保存部、12はRG生成部、13はGAE(音声明瞭度改善;Guidance Articulation Enhancement)部、14はRG再生部、15はサウンドドライバ、16はD/A変換器、17はスピーカ、18はマイク、19はA/D変換器であり、RGはRGデータ保存部が保存している音声データ列、RG’はGAE部13が求めた補正値を乗算した音声データ列、MICはマイク18が取り込んだ音声および周囲の雑音を含む信号である。
Outline of the Present Invention FIG. 1 is a schematic explanatory view of the present invention, and FIG. 2 is an explanatory view showing whether the microphone detection data is sound data of a noise section. In FIG. 1, 10 is a general purpose CPU, 11 is an RG data storage unit, 12 is an RG generation unit, 13 is a GAE (Guidance Articulation Enhancement) unit, 14 is an RG playback unit, 15 is a sound driver, and 16 is D / A converter, 17 is a speaker, 18 is a microphone, 19 is an A / D converter, RG is an audio data sequence stored in the RG data storage unit, RG ′ is a correction value obtained by the GAE unit 13 MIC is a signal including the voice captured by the microphone 18 and ambient noise.

RG生成部12はRGデータ保存部11より音声データ列RGを読み出し生成し、騒音分離部13bとRG補正部13dに入力する。RG補正部13dは補正値算出部13cが算出した補正値を音声データ列RGに乗算して、音量補正した音声データ列RG’をRG再生部14に入力する。RG再生部14は音声データ列RG’を一時的に保持すると共にデータ受け渡しのための処理が割り当てられると音声データ列RG’をサウンドドライバ15に入力し該入力時刻を入力開始時刻RGtime-S(図2参照)として騒音区間判定部13aに入力する。サウンドドライバ15は音声データ列RG’をD/A変換器16に入力し、音声データ列がなくなって、その入力を終了した入力終了時刻RGtime-E(図2参照)をRG再生部14を介して、騒音区間判定部13aに入力する。D/A変換器16はアナログ変換した音声データ列RG’をスピーカ17に入力し、スピーカ17は入力された音声データ列RG’に応じた音声を出力する。マイク18はMICデータ(出力された音声データ列RG’の音声と周囲の雑音)を取り込み、A/D変換器19によりディジタル変換してサウンドドライバ15に入力する。サウンドドライバ15は入力されたMICデータを図示しない所定容量のバッファ(保存部)に保存し、該バッファが満杯になった時刻を取り込み終了時刻MICtime-E(図2参照)とし、騒音区間判定部13aに取り込み終了時刻MICtime-Eを入力する。また、サウンドドライバ15は所定容量のMICデータを騒音区間判定部13aと騒音分離部13bに入力する。騒音区間判定部13aは該取り込み終了時刻よりバッファの容量に応じた時間MICbuftimeを差し引いてMICデータの取り込み開始時刻MICtime-S(図2参照)を求める。騒音区間判定部13aは、取り込んだ所定サイズのMICデータ(例えば図2のS3)が騒音区間のデータ(騒音)であるか判定するために、前記取り込み終了時刻MICtime-Eが前記入力開始時刻RGtime-Sより古いか、または前記入力終了時刻RGtime-Eが前記取り込み開始時刻MICtime-Sより古いか判断する。「YES」と判断した場合前記MICデータは騒音区間のデータであると判断し、騒音分離部13bは該音声データ列MICを用いて騒音パワーを算出する。ついで、補正値算出部13cは該騒音パワーと音声データ列のパワーを用いて音声データ列RGに乗算する補正値を算出し、RG補正部13dは音声データ列RGに補正値を乗算し、音量補正した音声データ列RG’をRG再生部14、サウンドドライバ15、D/A変換器16を介してスピーカ17に入力する。また、騒音区間判定部13aは上記判断により「NO」であれば、前記MICデータは騒音区間のデータではないと判定し、前記MICデータを用いて騒音パワーを算出しない。   The RG generation unit 12 reads out and generates the audio data string RG from the RG data storage unit 11, and inputs it to the noise separation unit 13b and the RG correction unit 13d. The RG correcting unit 13d multiplies the audio data sequence RG by the correction value calculated by the correction value calculating unit 13c, and inputs the audio data sequence RG 'whose volume has been corrected to the RG reproducing unit 14. The RG playback unit 14 temporarily stores the audio data sequence RG ′ and, when assigned with a process for data transfer, inputs the audio data sequence RG ′ to the sound driver 15 and inputs the input time to the input start time RGtime-S ( 2) and input to the noise section determination unit 13a. The sound driver 15 inputs the audio data string RG ′ to the D / A converter 16, and the input end time RGtime-E (see FIG. 2) when the audio data string disappears and the input ends is passed through the RG reproducing unit 14. And input to the noise section determination unit 13a. The D / A converter 16 inputs the analog-converted audio data sequence RG ′ to the speaker 17, and the speaker 17 outputs audio corresponding to the input audio data sequence RG ′. The microphone 18 takes in the MIC data (the voice of the output voice data string RG ′ and ambient noise), converts it into a digital signal by the A / D converter 19 and inputs it to the sound driver 15. The sound driver 15 stores the input MIC data in a buffer (storing unit) having a predetermined capacity (not shown), takes the time when the buffer is full as an end time MICtime-E (see FIG. 2), and determines a noise section determination unit. In 13a, the capture end time MICtime-E is input. The sound driver 15 inputs MIC data having a predetermined capacity to the noise section determination unit 13a and the noise separation unit 13b. The noise section determination unit 13a obtains the MIC data capture start time MICtime-S (see FIG. 2) by subtracting the time MICbuftime corresponding to the buffer capacity from the capture end time. The noise section determination unit 13a determines whether the captured end time MICtime-E is the input start time RGtime in order to determine whether the captured MIC data of a predetermined size (for example, S3 in FIG. 2) is noise section data (noise). It is determined whether it is older than -S or the input end time RGtime-E is older than the capture start time MICtime-S. If "YES" is determined, it is determined that the MIC data is data of a noise section, and the noise separation unit 13b calculates noise power using the voice data string MIC. Next, the correction value calculation unit 13c calculates a correction value for multiplying the audio data sequence RG using the noise power and the power of the audio data sequence, and the RG correction unit 13d multiplies the audio data sequence RG by the correction value, The corrected audio data string RG ′ is input to the speaker 17 via the RG reproducing unit 14, the sound driver 15, and the D / A converter 16. Further, if the determination is “NO”, the noise section determination unit 13a determines that the MIC data is not noise section data, and does not calculate noise power using the MIC data.

以上より、音声データ列が発生してからマイクにより音声が検出されるまでに遅延があっても、騒音パワーを正確に測定できるようになるので、音声明瞭度改善処理による効果を改善することができる。   From the above, noise power can be measured accurately even if there is a delay between the generation of the audio data sequence and the detection of the audio by the microphone, so that the effect of the audio intelligibility improvement process can be improved. it can.

・ 実施例
図3は本発明の第1実施例の音声明瞭度改善システムの構成図である。
通常時、ナビゲーション装置のRG生成部12は、例えば交差点に接近したときRGデータ保存部(図示せず)より音声データ列を読み出し、案内音声の音声データ列RGを生成する。RG補正部13dは、後述するラウドネス補償ゲイン算出部21で算出した補正値gを入力された音声データ列RGに乗算して音量補正した音声データ列RG’をRG再生部14に入力する。RG再生部14は入力された音声データ列を内蔵のバッファに保存し CPUよりサウンドドライバへの受け渡しが許可されたときFIFO(ファーストインファーストアウト)により該バッファから音声データ列RG’を読み出してサウンドドライバ15aへ入力する。またRG再生部14は、サウンドドライバ15aへの入力を開始した時刻(入力開始時刻RGtime-S)を測定し、騒音区間判定部13aに通知する。
Embodiment FIG. 3 is a configuration diagram of a speech intelligibility improvement system according to a first embodiment of the present invention.
During normal times, the RG generation unit 12 of the navigation device, for example, reads an audio data sequence from an RG data storage unit (not shown) when approaching an intersection, and generates an audio data sequence RG of guidance voice. The RG correction unit 13d inputs to the RG playback unit 14 an audio data sequence RG ′ whose volume has been corrected by multiplying the input audio data sequence RG by the correction value g calculated by the loudness compensation gain calculation unit 21 described later. The RG playback unit 14 stores the input audio data string in a built-in buffer, and reads the audio data string RG 'from the buffer by FIFO (first in first out) when the CPU permits the transfer to the sound driver. Input to the driver 15a. Further, the RG playback unit 14 measures the time when the input to the sound driver 15a is started (input start time RGtime-S) and notifies the noise section determination unit 13a.

サウンドドライバ15aはRG再生部14から入力された音声データ列RG’を、D/A変換器16に入力し、全音声データ列のD/A変換器16への入力が終了すれば該終了した時刻(入力終了時刻RGtime-E)を測定し、RG再生部14を介して騒音区間判定部13aに通知する。D/A変換器16は入力された音声データ列RG’をアナログデータに変換して、スピーカ17に入力する。マイク18はスピーカから出力された音声信号と周囲の雑音を集音し、A/D変換器19に入力する。A/D変換器19は、入力された音声信号をディジタルデータに変換して、MICデータとしてサウンドドライバ15bに入力する。サウンドドライバ15bは入力されたMICデータを内蔵の所定容量のバッファ15cに保存すると共に、該バッファ15cが満杯になれば、保存されている所定サイズのデータをGAE部13に入力し、かつ該入力した時刻(取り込み終了時刻MICtime-E)を測定し、騒音区間判定部13aに入力する。以後、サウンドドライバ15bは次のMICデータのバッファ15cへの保存を開始し、満杯になるごとに保存データをGAE部13に入力すると共に、取り込み終了時刻MICtime-Eを騒音区間判定部13aに入力する。   The sound driver 15a inputs the audio data string RG ′ input from the RG reproducing unit 14 to the D / A converter 16, and the input is completed when the input of all the audio data strings to the D / A converter 16 is completed. The time (input end time RGtime-E) is measured and notified to the noise section determination unit 13a via the RG playback unit 14. The D / A converter 16 converts the input audio data string RG ′ into analog data and inputs the analog data to the speaker 17. The microphone 18 collects the audio signal output from the speaker and ambient noise and inputs the collected sound signal to the A / D converter 19. The A / D converter 19 converts the input audio signal into digital data and inputs the digital data to the sound driver 15b as MIC data. The sound driver 15b stores the input MIC data in a built-in buffer 15c having a predetermined capacity. When the buffer 15c is full, the stored data of a predetermined size is input to the GAE unit 13, and the input The measured time (capture end time MICtime-E) is measured and input to the noise section determination unit 13a. Thereafter, the sound driver 15b starts storing the next MIC data in the buffer 15c, and inputs the stored data to the GAE unit 13 every time it is full, and inputs the capture end time MICtime-E to the noise section determining unit 13a. To do.

騒音区間判定部13aは、取り込み終了時刻MICtime-Eとバッファ15cの容量に応じた時間(MICbuftime)を用いて、MICデータの取り込みを開始した時刻(取り込み開始時刻MICtime-S)を算出し(MICtime-S=MICtime-E−MICbuftime)、各時刻RGtime-S、RGtime-E、MICtime-S、MICtime-Eを用いてバッファから取り込んだ音声データが騒音区間のデータであるか判断する(図2参照)。すなわち、騒音区間判定部13aはRGtime-EからRGtime-Sまでの期間を騒音区間、RGtime-SからRGtime-Eまでの期間を非騒音区間とみなし、MICデータの取り込み終了時刻MICtime-Eが入力開始時刻RGtime-Sより古いか、または入力終了時刻RGtime-EがMICデータの取り込み開始時刻MICtime-Sより古いかを判断し、「YES」の場合にはMICデータは騒音区間のデータであると判定し、「NO」の場合には非騒音区間のデータであると判定し、騒音区間もしくは非騒音区間の切り替え信号を切り替え部22に入力する。尚、図2のMICデータS0〜S8のうちS2〜S4が騒音区間のデータとなる。切り替え部22は接点Aに固定しておき、騒音区間判定部13aが入力する非騒音区間の信号により接点Bに切り替える。サウンドドライバ15bは固定接点Aと聴感補正フィルタ23を介してMICデータ(騒音信号)をパワー計算部24に入力し、パワー計算部24は入力されたMICデータの振幅の二乗演算を行って騒音パワーを計算する。   The noise section determination unit 13a calculates the start time of MIC data import (capture start time MICtime-S) using the capture end time MICtime-E and the time (MICbuftime) according to the capacity of the buffer 15c (MICtime). -S = MICtime-E-MICbuftime), and using each time RGtime-S, RGtime-E, MICtime-S, and MICtime-E, it is determined whether the audio data taken from the buffer is noise section data (see FIG. 2). ). That is, the noise section determination unit 13a regards the period from RGtime-E to RGtime-S as the noise section and the period from RGtime-S to RGtime-E as the non-noise section, and inputs the MIC data capture end time MICtime-E. It is determined whether it is older than the start time RGtime-S or the input end time RGtime-E is older than the MIC data capture start time MICtime-S. If “YES”, the MIC data is data in the noise section. In the case of “NO”, it is determined that the data is in a non-noise section, and a switching signal for a noise section or a non-noise section is input to the switching unit 22. Of the MIC data S0 to S8 in FIG. 2, S2 to S4 are noise section data. The switching unit 22 is fixed to the contact point A, and is switched to the contact point B according to the signal of the non-noise section input by the noise section determination unit 13a. The sound driver 15b inputs the MIC data (noise signal) to the power calculation unit 24 through the fixed contact A and the audibility correction filter 23, and the power calculation unit 24 performs the square calculation of the amplitude of the input MIC data to obtain the noise power. Calculate

騒音パワー平均化部25は、騒音区間において、パワー計算部24から出力する最新のN個(N:定数)のパワーの移動平均値を求め、該移動平均値を騒音パワーとしてパワー保存部26に保存する。この結果、音声信号が出力されたときに、直前の騒音区間における最新の騒音パワーがパワー保存部26に保存されていることになる。本発明では非騒音区間における騒音パワーは、パワー保存部26に保存されている騒音パワーであると見なし、パワー保存部26に保存されている騒音パワーをラウドネス補償ゲイン算出部21に入力する。   The noise power averaging unit 25 obtains a moving average value of the latest N (N: constant) powers output from the power calculation unit 24 in the noise section, and uses the moving average value as noise power to the power storage unit 26. save. As a result, when the audio signal is output, the latest noise power in the immediately preceding noise section is stored in the power storage unit 26. In the present invention, the noise power in the non-noise section is regarded as the noise power stored in the power storage unit 26, and the noise power stored in the power storage unit 26 is input to the loudness compensation gain calculation unit 21.

以上と並行して、RG生成部12から出力される音声データ列RGは、聴感補正フィルタ27を介して音声パワー計算部28に入力する。音声パワー計算部28は入力された音声データ列RGの振幅の二乗演算を行って音声パワーを計算し、該音声パワーを音声パワー平均化部29に入力し、音声パワー平均化部29は音声パワー計算部28より入力されたM個(M:定数)の音声パワーの平均値を演算し、可変ゲイン部31に入力する。可変ゲイン部31は平均音声パワーにゲインGを乗算して出力する。なお、可変ゲイン部31に設定されるゲインGはスピーカ17の入力端子からマイク出力端子までの伝播特性をゲインのみで近似できるとみなして、特性同定部30が該ゲインGを予め同定して設定するものである。   In parallel with the above, the audio data string RG output from the RG generation unit 12 is input to the audio power calculation unit 28 via the audibility correction filter 27. The audio power calculation unit 28 calculates the audio power by performing the square calculation of the amplitude of the input audio data string RG, inputs the audio power to the audio power averaging unit 29, and the audio power averaging unit 29 An average value of M (M: constant) audio powers input from the calculation unit 28 is calculated and input to the variable gain unit 31. The variable gain unit 31 multiplies the average audio power by the gain G and outputs the result. Note that the gain G set in the variable gain unit 31 assumes that the propagation characteristic from the input terminal of the speaker 17 to the microphone output terminal can be approximated only by the gain, and the characteristic identification unit 30 identifies and sets the gain G in advance. To do.

ラウドネス補償ゲイン算出部21は、非騒音区間において、可変ゲイン部31から入力する音声パワーとパワー保存部26から入力する騒音パワーに基づき、騒音のレベルによらず音声信号が明瞭に聞こえるゲインgを人のラウドネス特性により決定してRG補正部13dに入力し、RG補正部13dは該ゲインgを入力され、音声データ列RGにゲインgを乗算して出力する。なお、ラウドネス補償ゲイン算出部21は非騒音区間ではゲインgの決定制御を行わない。   The loudness compensation gain calculation unit 21 calculates a gain g at which the audio signal can be clearly heard regardless of the noise level based on the audio power input from the variable gain unit 31 and the noise power input from the power storage unit 26 in the non-noise section. The gain is determined by human loudness characteristics and input to the RG correction unit 13d. The RG correction unit 13d receives the gain g, multiplies the audio data string RG by the gain g, and outputs the result. The loudness compensation gain calculation unit 21 does not perform gain g determination control in the non-noise section.

以上、本発明によれば、図2に示す案内音声を含むMICデータS1、S5を騒音区間のデータとしないから騒音区間の騒音パワーを正確に測定して保存することができる。   As described above, according to the present invention, since the MIC data S1 and S5 including the guidance voice shown in FIG. 2 are not used as the noise section data, the noise power in the noise section can be accurately measured and stored.

図4はRG再生部14およびサウンドドライバ15aの処理フロー、図5は騒音区間判定部13a、補正値算出部13cおよびサウンドドライバ15bの処理フローである。以下、これらの処理フローに沿って音声明瞭度改善システムの騒音区間判定処理について説明を行う。ただし、RG生成部12がRGデータ保存部11から音声データ列RGを読み出し、RG補正部13dに入力し、RG補正部13dは補正値算出部13cが算出したゲインgを乗算し、音声信号である音声データ列RG’をRG再生部14に入力してあるものとする。   FIG. 4 is a processing flow of the RG playback unit 14 and the sound driver 15a, and FIG. 5 is a processing flow of the noise section determination unit 13a, the correction value calculation unit 13c, and the sound driver 15b. Hereinafter, the noise section determination processing of the speech intelligibility improvement system will be described along these processing flows. However, the RG generation unit 12 reads the audio data string RG from the RG data storage unit 11 and inputs it to the RG correction unit 13d. The RG correction unit 13d multiplies the gain g calculated by the correction value calculation unit 13c, and uses the audio signal. It is assumed that a certain audio data string RG ′ is input to the RG reproducing unit 14.

RG再生部14は、CPUより許可されて音声データ列RG’をサウンドドライバ15aに入力開始した入力開始時刻RGtime-Sを測定し(ステップS401)、騒音区間判定部13aに入力開始時刻RGtime-Sを入力する(ステップS402)。   The RG playback unit 14 measures the input start time RGtime-S that is permitted by the CPU and starts to input the audio data string RG ′ to the sound driver 15a (step S401), and inputs the input start time RGtime-S to the noise section determination unit 13a. Is input (step S402).

ついで、RG再生部14はサウンドドライバ15aに音声データ列RGを渡し(ステップS403)、サウンドドライバ15aは受け取った音声データ列RG’に所定の処理を施して、D/A変換器16に入力し、D/A変換器16はディジタルの音声データ列RG’をアナログ信号に変換し、スピーカ17に入力し、スピーカ17は音声信号を出力する(ステップS404)。   Next, the RG playback unit 14 passes the audio data string RG to the sound driver 15a (step S403), and the sound driver 15a performs a predetermined process on the received audio data string RG 'and inputs it to the D / A converter 16. The D / A converter 16 converts the digital audio data string RG ′ into an analog signal and inputs it to the speaker 17, and the speaker 17 outputs the audio signal (step S404).

サウンドドライバ15aは入力された全音声データ列の出力が終了すれば、該時刻を入力終了時刻RGtime-Eとして測定し(ステップS405)、該入力再生時刻RGtime-EをRG再生部14に入力し(ステップS406)、RG再生部14は騒音区間判定部13aに通知する(ステップS407)。以上により、騒音区間判定部13aはRGtime-EからRGtime-Sまでの期間を騒音区間、RGtime-SからRGtime-Eまでの期間を非騒音区間とみなし、次の図5の処理フローにしたがってMICデータが騒音区間のデータであるか否かを判定する。すなわち、MICデータの取り込み終了時刻MICtime-Eが入力開始時刻RGtime-Sより古い、または入力終了時刻RGtime-EがMICデータの取り込み開始時刻MICtime-Sより古いかを判断し、「YES」の場合にはMICデータは騒音区間のデータであると判定し、「NO」の場合には非騒音区間であると判定する。   When the output of all the input audio data strings is completed, the sound driver 15a measures the time as the input end time RGtime-E (step S405), and inputs the input playback time RGtime-E to the RG playback unit 14. (Step S406), the RG reproducing unit 14 notifies the noise section determining unit 13a (Step S407). From the above, the noise section determination unit 13a regards the period from RGtime-E to RGtime-S as the noise section and the period from RGtime-S to RGtime-E as the non-noise section, and follows the processing flow of FIG. It is determined whether the data is noise section data. That is, it is determined whether the MIC data capture end time MICtime-E is older than the input start time RGtime-S or the input end time RGtime-E is older than the MIC data capture start time MICtime-S. Is determined that the MIC data is data in a noise section, and if “NO”, it is determined as a non-noise section.

以下、図5にしたがって、マイク18より取り込んだMICデータが騒音区間のデータであるか否かの処理を説明する。   Hereinafter, the process of determining whether or not the MIC data captured from the microphone 18 is noise section data will be described with reference to FIG.

サウンドドライバ15bはマイク18により検出されたMICデータを順にバッファ15cに保存し(ステップS501)、該バッファ15cが満杯になったかの判断を行い(ステップS502)、満杯になった場合はステップS503に進み、満杯になっていない場合はS501〜S502の処理を繰り返す。   The sound driver 15b sequentially stores the MIC data detected by the microphone 18 in the buffer 15c (step S501), determines whether the buffer 15c is full (step S502), and proceeds to step S503 if the buffer 15c is full. If not full, the processing of S501 to S502 is repeated.

ステップS502において、バッファ15cが満杯になったと判断した場合、サウンドドライバ15bは該満杯になった時刻(取り込み終了時刻)MICtime-Eを測定し(ステップS503)、取り込み終了時刻MICtime-Eを騒音区間判定部13aに入力すると共に、バッファ15cに保存されているMICデータをGAE部13に入力する(ステップS504)。   If it is determined in step S502 that the buffer 15c is full, the sound driver 15b measures the full time (capture end time) MICtime-E (step S503), and uses the capture end time MICtime-E as the noise interval. The MIC data input to the determination unit 13a and the MIC data stored in the buffer 15c are input to the GAE unit 13 (step S504).

ついで、騒音区間判定部13aは、バッファ15cの容量に応じた時間MICbuftimeをMICtime-Eより差し引いて取り込み開始した取り込み開始時刻MICtime-Sを算出し(ステップS505)、各時刻RGtime-S、RGtime-E、MICtime-S、MICtime-Eを用いてバッファ15cから取り込んだ音声データが騒音区間のデータであるか判断する(ステップS506)。すなわち、ステップS506では、騒音区間判定部13aは取り込み終了時刻MICtime-Eが入力開始時刻RGtime-Sより古いか、または入力終了時刻RGtime-Eが取り込み開始時刻MICtime-Sより古いか判断し、「YES」と判断した場合はステップS507に進み、「NO」と判断した場合にはステップS510に進む。   Next, the noise section determination unit 13a calculates the acquisition start time MICtime-S at which the acquisition starts by subtracting the time MICbuftime corresponding to the capacity of the buffer 15c from MICtime-E (step S505), and each time RGtime-S, RGtime- It is determined whether the audio data captured from the buffer 15c is noise section data using E, MICtime-S, and MICtime-E (step S506). That is, in step S506, the noise section determination unit 13a determines whether the capture end time MICtime-E is older than the input start time RGtime-S or whether the input end time RGtime-E is older than the capture start time MICtime-S. If “YES” is determined, the process proceeds to step S507. If “NO” is determined, the process proceeds to step S510.

ステップS506において、「YES」と判断した場合には、バッファ15cから取り込んだMICデータは騒音区間におけるデータであるとみなし、騒音分離部13bはMICデータを用いて騒音パワーを算出し、騒音パワーを補正値算出部13cに入力する(ステップS507)。   If “YES” is determined in step S506, the MIC data fetched from the buffer 15c is regarded as data in the noise section, and the noise separation unit 13b calculates the noise power using the MIC data and calculates the noise power. It inputs into the correction value calculation part 13c (step S507).

しかる後、補正値算出部13cは入力された騒音パワーを用いて、音声データ列RGに乗算する補正値gを算出し、算出した補正値gをRG補正部13dに入力し(ステップS508)、RG補正部13dは入力された補正値gを音声データ列RGに乗算し音量補正する(ステップS509)。その後、上記の処理を繰り返し行い、補正値の更新および騒音区間の判定を行う。   Thereafter, the correction value calculation unit 13c calculates a correction value g by which the audio data string RG is multiplied using the input noise power, and inputs the calculated correction value g to the RG correction unit 13d (step S508). The RG correction unit 13d multiplies the input correction value g by the audio data string RG to correct the volume (step S509). Thereafter, the above process is repeated to update the correction value and determine the noise section.

ステップS506において、「NO」と判断した場合には、バッファから取り込んだ音声データは騒音区間のデータでないと判断し、騒音パワーを算出しない(ステップS510)。その後、上記の処理を繰り返し行い、補正値の更新および騒音区間の判定を行う。本実施例では、取り込み終了時刻MICtime-Eよりバッファの容量に応じた時間(MICbuftime)を差し引いて、MICデータの取り込み開始時刻MICtime-Sを算出したが、それに限定されるものではなく、例えば、取り込み開始時刻MICtime-Sにバッファの容量に応じた時間(MICbuftime)を加算して、MICデータの取り込みを終了した時刻(取り込み終了時刻MICtime-E)を算出する(MICtime-E=MICtime-S+MICbuftime)ようにしてもよい。   If “NO” is determined in step S506, it is determined that the voice data taken from the buffer is not noise section data, and the noise power is not calculated (step S510). Thereafter, the above process is repeated to update the correction value and determine the noise section. In this embodiment, the acquisition start time MICtime-S of the MIC data is calculated by subtracting the time (MICbuftime) corresponding to the buffer capacity from the acquisition end time MICtime-E. However, the present invention is not limited to this. The time (MICbuftime) corresponding to the buffer capacity is added to the capture start time MICtime-S to calculate the time when the MIC data capture is completed (capture end time MICtime-E) (MICtime-E = MICtime-S + MICbuftime) You may do it.

以上、本実施例によれば、音声データ列の入力開始時刻と入力終了時刻と、マイクより取り込んだ所定長の音声データ列の取り込み開始時刻と取り込み終了時刻とを監視し、それぞれの時刻を用いて、マイクより取り込んだ所定長の音声データ列が騒音区間の音声データ列であるか判断するようにしたので、音声を騒音として検出することがなくなり(例えば図2のMICデータS1、S5を騒音として検出しないため)、正確な騒音パワーを測定することができる。   As described above, according to the present embodiment, the input start time and input end time of the audio data string and the acquisition start time and the acquisition end time of the audio data string of a predetermined length acquired from the microphone are monitored, and the respective times are used. Therefore, since it is determined whether the audio data string of a predetermined length captured from the microphone is an audio data string in the noise section, the audio is not detected as noise (for example, the MIC data S1 and S5 in FIG. So that the exact noise power can be measured.

また、本実施例によれば、正しく騒音区間の騒音パワーを用いてスピーカに入力する音声データ列に乗算するゲインを決定するようにしたので、正確に音声明瞭度改善処理を行うことができ、騒音下でもスピーカ出力音声が明瞭に聞こえるようにすることができる。   In addition, according to the present embodiment, the gain for multiplying the audio data string input to the speaker by using the noise power of the noise section correctly is determined, so that the speech intelligibility improvement processing can be performed accurately, The speaker output sound can be heard clearly even under noise.

・ 変形例
図6は本発明の変形例の構成図であり、図1と同一部分には同一符号を付している。異なる点は1つの汎用CPUによる音声明瞭度改善処理を、もう1つの別の汎用CPUによる音声明瞭度改善処理に変更した点である。
Modified Example FIG. 6 is a block diagram of a modified example of the present invention, and the same parts as those in FIG. The difference is that the voice clarity improvement processing by one general-purpose CPU is changed to the voice clarity improvement processing by another different general-purpose CPU.

もう1つの別の汎用CPU40は、騒音区間判定部13a、騒音分離部13b、補正値算出部13c、RG補正部13dから構成されており、13a〜13dは上記実施例のGAE部13と同様の処理を行い、音声明瞭度改善処理を行う。   Another general-purpose CPU 40 includes a noise section determination unit 13a, a noise separation unit 13b, a correction value calculation unit 13c, and an RG correction unit 13d, and 13a to 13d are the same as the GAE unit 13 of the above embodiment. Process to improve speech intelligibility.

以上、本変形例によれば、上記実施例と同様の効果を得ることができ、音声と騒音を検出することがなくなり、正確な騒音パワーを測定でき、かつ、正確に音声明瞭度改善処理を行うことができ、騒音下でもスピーカ出力音声が明瞭に聞こえるようにすることができる。
また、本変形例によれば、アプリの処理を行う第一の汎用CPUとGAEの処理を行う第二の汎用CPUを用いるようにしたので、第一の汎用CPUと第二の汎用CPUが分離可能となり、アプリとGAEが脱着可能となる。
As described above, according to this modification, it is possible to obtain the same effects as in the above-described embodiment, no longer detect voice and noise, accurately measure noise power, and accurately perform speech intelligibility improvement processing. This can be performed, and the speaker output sound can be clearly heard even under noise.
In addition, according to this modification, the first general-purpose CPU that performs application processing and the second general-purpose CPU that performs GAE processing are used. Therefore, the first general-purpose CPU and the second general-purpose CPU are separated. It becomes possible, and the application and GAE can be detached.

本発明の概略説明図である。It is a schematic explanatory drawing of this invention. マイク検出データが騒音区間の音声データであるか示す説明図である。It is explanatory drawing which shows whether microphone detection data is the audio | voice data of a noise area. 本発明の第1実施例の音声明瞭度改善システムの構成図である。It is a block diagram of the speech intelligibility improvement system of 1st Example of this invention. RG再生部12およびサウンドドライバ15aの処理フローである。It is a processing flow of the RG playback unit 12 and the sound driver 15a. 騒音区間判定部13a、補正値算出部13cおよびサウンドドライバ15bの処理フローである。It is a processing flow of the noise area determination part 13a, the correction value calculation part 13c, and the sound driver 15b. 本発明の変形例の構成図である。It is a block diagram of the modification of this invention. 従来の音声明瞭度改善システムである。This is a conventional speech intelligibility improvement system. 提案されている音声明瞭度改善システムの構成図である。It is a block diagram of the proposed speech intelligibility improvement system. 図8の音声明瞭度改善システムをマルチプロセスの汎用CPUとDSP(Digital Signal Processor)とで実現する例である。It is an example which implement | achieves the audio | voice intelligibility improvement system of FIG. 8 with multi-process general purpose CPU and DSP (Digital Signal Processor). 汎用CPU上で遅延が生じる原因を説明する図である。It is a figure explaining the cause which a delay produces on general purpose CPU. 騒音パワーが正確に測定できないことを説明するタイムチャートである。It is a time chart explaining that noise power cannot be measured correctly.

符号の説明Explanation of symbols

10 汎用CPU
10a 〜10d 汎用CPU上が処理するアプリ
11 RGデータ保存部
12 RG生成部
13 音声明瞭度改善システム
13a 騒音区間判定部
13b 騒音分離部
13c 補正値算出部
13d RG補正部
14 RG再生部
15 サウンドドライバ
15c バッファ
23 聴感補正フィルタ
24 パワー計算部
25 騒音パワー平均化部
26 パワー保存部
27 聴感補正フィルタ
28 音声パワー計算部
29 音声パワー平均化部
30 特性同定部
31 可変ゲイン部
40 別の汎用CPU
10 General-purpose CPU
10a to 10d Application processed on general-purpose CPU 11 RG data storage unit 12 RG generation unit 13 Speech intelligibility improvement system 13a Noise section determination unit 13b Noise separation unit 13c Correction value calculation unit 13d RG correction unit 14 RG reproduction unit 15 Sound driver 15c buffer 23 auditory correction filter 24 power calculation unit 25 noise power averaging unit 26 power storage unit 27 auditory correction filter 28 audio power calculation unit 29 audio power averaging unit 30 characteristic identification unit 31 variable gain unit 40 another general-purpose CPU

Claims (18)

音声信号が出力されていない区間を騒音区間とし、該騒音区間における騒音パワーと非騒音区間における音声パワーを用いて音声信号のゲインを制御する音声明瞭度改善方法において、
マルチプロセスの1つのプロセスとして音声データ発生部が出力する音声データ列に前記ゲインを乗算してスピーカ側に出力すると共に、マイクにより検出された音声信号をディジタルデータに変換して所定長単位で取り込む第1ステップ、
前記音声データ列のスピーカ側への入力開始時刻と入力終了時刻を監視し、かつ、前記マイクより取り込んだ所定長の音声データ列の取り込み開始時刻と取り込み終了時刻を監視する第2ステップ、
前記各時刻を用いて前記マイクより取り込んだ所定長の音声データ列が騒音区間の音声データ列であるか否か判定する第3ステップ、
前記騒音区間の音声データ列を用いて騒音パワーを検出する第4ステップ、
を備えたことを特徴とする音声明瞭度改善方法。
In the speech intelligibility improving method for controlling the gain of the audio signal using the noise power in the noise interval and the audio power in the non-noise interval as a noise interval in the interval where the audio signal is not output,
As a multi-process, the audio data sequence output from the audio data generation unit is multiplied by the gain and output to the speaker side, and the audio signal detected by the microphone is converted into digital data and captured in units of a predetermined length. First step,
A second step of monitoring an input start time and an input end time to the speaker side of the audio data sequence, and monitoring an acquisition start time and an acquisition end time of a predetermined length of audio data sequence acquired from the microphone;
A third step of determining whether or not the audio data string of a predetermined length captured from the microphone using each time is an audio data string of a noise section;
A fourth step of detecting noise power using the audio data string of the noise section;
A method for improving speech intelligibility, comprising:
前記騒音区間でないときに、前記音声データ発生部が出力する音声データ列に基づいて音声パワーを検出する第5ステップ、
前記騒音パワーと前記音声パワーを用いて前記音声データ列に乗算するゲインを決定する第6ステップ、
を備えたことを特徴とする請求項1記載の音声明瞭度改善方法。
A fifth step of detecting voice power based on a voice data sequence output by the voice data generator when not in the noise section;
A sixth step of determining a gain by which the sound data string is multiplied using the noise power and the sound power;
The method for improving speech intelligibility according to claim 1.
前記音声データ発生部が出力する音声データ列を、サウンドドライバを介して前記スピーカに入力する場合、前記第2ステップは、
該音声データ列の前記サウンドドライバへの入力を開始した時刻を前記入力開始時刻として保存するステップ、
前記サウンドドライバによる前記スピーカへの最後の音声データ列の入力を終了した時刻を前記入力終了時刻として保存するステップ、
を備えたことを特徴とする請求項1または2記載の音声明瞭度改善方法。
When the audio data string output by the audio data generation unit is input to the speaker via a sound driver, the second step includes:
Storing the time when the input of the audio data string to the sound driver is started as the input start time;
Storing the time when the input of the last audio data string to the speaker by the sound driver is ended as the input end time;
The speech intelligibility improving method according to claim 1 or 2, further comprising:
前記第2ステップは、
前記マイクより取り込んだ音声データ列を所定容量のバッファに保存すると共に取り込み開始時刻を保存するステップ、
該バッファが満杯になったとき保存した全音声データ列と前記取り込み開始時刻を出力するステップ、
を備えたことを特徴とする請求項1または2記載の音声明瞭度改善方法。
The second step includes
Storing the audio data sequence captured from the microphone in a buffer of a predetermined capacity and storing the capture start time;
Outputting the entire audio data sequence stored when the buffer is full and the capture start time;
The speech intelligibility improving method according to claim 1 or 2, further comprising:
前記第3ステップは、前記出力された取り込み開始時刻に前記バッファの容量に応じた一定時間を加算して前記取り込み終了時刻を求めるステップ、
を備えたことを特徴とする請求項4記載の音声明瞭度改善方法。
The third step is a step of obtaining the capture end time by adding a certain time according to the capacity of the buffer to the output capture start time,
The speech intelligibility improving method according to claim 4, further comprising:
前記第2ステップは、
前記マイクより取り込んだ音声データ列を所定容量のバッファに保存すると共に該バッファが満杯になったとき、該時刻を取り込み終了時刻として保存するステップ、
保存した全音声データと前記取り込み終了時刻を出力するステップ、
を備えたことを特徴とする請求項1または2記載の音声明瞭度改善方法。
The second step includes
Storing the audio data sequence captured from the microphone in a buffer having a predetermined capacity and storing the time as an end time when the buffer is full;
Outputting all stored audio data and the capture end time;
The speech intelligibility improving method according to claim 1 or 2, further comprising:
前記第3ステップは、前記出力された取り込み終了時刻から前記バッファの容量に応じた一定時間を差し引いて前記取り込み開始時刻を求めるステップ、
を備えたことを特徴とする請求項6記載の音声明瞭度改善方法。
The third step is a step of subtracting a certain time according to the capacity of the buffer from the output capture end time to obtain the capture start time;
The method for improving speech intelligibility according to claim 6.
最新の前記入力開始時刻をRGtime-S、最新の前記入力終了時刻をRGtime-E、最新の前記取り込み開始時刻をMICtime-S、最新の前記取り込み終了時刻をMICtime-Eとするとき、
前記入力開始時刻RGtime-Sと前記取り込み終了時刻MICtime-Eを比較するステップ、
前記入力終了時刻RGtime-Eと前記取り込み開始時刻MICtime-Sを比較するステップ、
前記取り込み終了時刻MICtime-Eが前記最新の入力開始時刻RGtime-Sより古い時刻であるか、または前記最新の入力終了時刻RGtime-Eが前記最新の取り込み開始時刻MICtime-Sより古い時刻であれば前記所定長の音声データ列は前記騒音区間の音声データ列であると判定するステップ、
を有することを特徴とする請求項1または2記載の音声明瞭度改善方法。
When the latest input start time is RGtime-S, the latest input end time is RGtime-E, the latest capture start time is MICtime-S, and the latest capture end time is MICtime-E.
Comparing the input start time RGtime-S and the capture end time MICtime-E;
Comparing the input end time RGtime-E and the capture start time MICtime-S;
If the capture end time MICtime-E is older than the latest input start time RGtime-S, or the latest input end time RGtime-E is older than the latest capture start time MICtime-S Determining that the audio data string of the predetermined length is an audio data string of the noise section;
The speech intelligibility improving method according to claim 1 or 2, characterized by comprising:
音声信号が出力されていない区間を騒音区間とし、該騒音区間における騒音パワーと非騒音区間における音声パワーを用いて音声信号のゲインを制御する音声明瞭度改善システムにおいて、
音声データ列を発生する音声データ発生部と、
入力された音声データをアナログデータに変換してスピーカへ出力する音声信号出力部と、
マイクにより検出された音声信号をディジタルデータに変換して所定長単位で取り込む音声データ取り込み部と、
前記音声データ列の前記音声信号出力部への入力開始時刻と入力終了時刻と、前記音声データ取り込み部における所定長の音声データ列の取り込み開始時刻と所定長の音声データ列の取り込み終了時刻を監視する時刻監視部と、
前記各時刻を用いて前記音声データ取り込み部により取り込んだ所定長の音声データ列が騒音区間の音声データ列であるか判定する騒音区間判定部と、
前記音声データ取り込み部により取り込まれた前記騒音区間の音声データ列を用いて騒音パワーを検出する騒音パワー検出部と、
前記騒音パワーを用いて、前記出力する音声データ列に乗算するゲインを算出する補正値算出部と、
前記算出したゲインを前記音声データ発生部が発生する音声データ列に乗算して前記音声信号出力部に入力する補正部と、
を備えたことを特徴とする音声明瞭度改善システム。
In a speech intelligibility improving system that controls a gain of a speech signal using a noise power in a noise zone and a voice power in a non-noise zone as a noise zone where a voice signal is not output.
An audio data generator for generating an audio data sequence;
An audio signal output unit that converts the input audio data into analog data and outputs the analog data; and
An audio data capturing unit that converts an audio signal detected by a microphone into digital data and captures the data in units of a predetermined length;
Monitor the input start time and input end time of the audio data sequence to the audio signal output unit, the acquisition start time of the audio data sequence of a predetermined length and the acquisition end time of the audio data sequence of a predetermined length in the audio data acquisition unit A time monitoring unit to
A noise section determination unit that determines whether the predetermined length of the voice data sequence captured by the voice data capturing unit using each time is a noise section voice data sequence;
A noise power detection unit for detecting noise power using a voice data string of the noise section captured by the voice data capturing unit;
Using the noise power, a correction value calculation unit for calculating a gain to be multiplied with the output audio data string;
A correction unit that multiplies the calculated gain by the audio data sequence generated by the audio data generation unit and inputs the multiplication to the audio signal output unit;
A speech intelligibility improvement system characterized by comprising:
前記騒音区間でないときに、前記音声データ発生部が出力する音声データ列に基づいて音声パワーを検出する音声パワー検出部、を更に備え、
前記補正値算出部は前記騒音パワーと前記音声パワーを用いて前記音声データ列に乗算するゲインを決定すること、
を特徴とする請求項9記載の音声明瞭度改善システム。
A voice power detector that detects voice power based on a voice data sequence output by the voice data generator when not in the noise section;
The correction value calculating unit determines a gain by which the audio data string is multiplied using the noise power and the audio power;
The speech intelligibility improvement system according to claim 9.
前記時刻監視部は、前記補正部から出力された前記音声データ列を前記音声信号出力部へ入力開始した時刻を前記入力開始時刻として、最後の音声データ列を前記音声信号出力部へ入力終了した時刻を前記入力終了時刻として、保存すること、
を特徴とする請求項9または10記載の音声明瞭度改善システム。
The time monitoring unit finishes inputting the last audio data sequence to the audio signal output unit, with the time when the audio data sequence output from the correction unit started to be input to the audio signal output unit as the input start time. Storing the time as the input end time;
The speech intelligibility improvement system according to claim 9 or 10.
更に、前記音声データ取り込み部が取り込んだ音声データ列を保存する前記所定長の音声データ保存部、を備え、
前記時刻監視部は、前記音声データ保存部が満杯になったときに保存した全音声データ列と、前記所定長の音声データ列の取り込み開始時刻と、を前記騒音区間判定部へ出力する、
ことを特徴とする請求項9または10記載の音声明瞭度改善システム。
Furthermore, the audio data storage unit of the predetermined length that stores the audio data sequence captured by the audio data capturing unit,
The time monitoring unit outputs to the noise section determination unit the entire audio data sequence stored when the audio data storage unit is full and the start time of capturing the audio data sequence of the predetermined length.
The speech intelligibility improvement system according to claim 9 or 10.
前記騒音区間判定部は、前記取り込み開始時刻に前記音声データ保存部の容量に応じた一定時間を加算して前記取り込み終了時刻を求める、
ことを特徴とする請求項12記載の音声明瞭度改善システム。
The noise section determination unit obtains the capture end time by adding a certain time according to the capacity of the audio data storage unit to the capture start time.
The speech intelligibility improvement system according to claim 12.
更に、前記音声データ取り込み部が取り込んだ音声データ列を保存する前記所定長の音声データ保存部、を備え、
前記時刻監視部は、前記音声データ保存部が満杯になったときに保存した全音声データ列と、前記取り込み終了時刻と、を前記騒音区間判定部へ出力する、
ことを特徴とする請求項9または10記載の音声明瞭度改善システム。
Furthermore, the audio data storage unit of the predetermined length that stores the audio data sequence captured by the audio data capturing unit,
The time monitoring unit outputs the entire audio data sequence stored when the audio data storage unit is full and the capture end time to the noise section determination unit.
The speech intelligibility improvement system according to claim 9 or 10.
前記騒音区間判定部は、前記取り込み終了時刻から前記音声データ保存部の容量に応じた一定時間を差し引いて前記取り込み開始時刻を求める、
ことを特徴とする請求項14記載の音声明瞭度改善システム。
The noise section determination unit obtains the capture start time by subtracting a certain time according to the capacity of the audio data storage unit from the capture end time.
The speech intelligibility improvement system according to claim 14.
最新の前記入力開始時刻をRGtime-S、最新の前記入力終了時刻をRGtime-E、最新の前記取り込み開始時刻をMICtime-S、最新の前記取り込み終了時刻をMICtime-Sとするとき、
前記騒音区間判定部は、前記入力開始時刻RGtime-Sと前記取り込み終了時刻MICtime-Eを比較し、前記最新の入力終了時刻RGtime-Eと前記最新の取り込み開始時刻MICtime-Sを比較し、前記取り込み終了時刻MICtime-Eが前記最新の入力開始時刻RGtime-Sより古い時刻でああるか、または前記最新の入力終了時刻RGtime-Eが前記最新の取り込み開始時刻MICtime-Sより古い時刻であれば、前記所定長の音声データ列が前記騒音区間の音声データ列であると判定する、
ことを特徴とする請求項9または10記載の音声明瞭度改善システム。
When the latest input start time is RGtime-S, the latest input end time is RGtime-E, the latest capture start time is MICtime-S, and the latest capture end time is MICtime-S.
The noise section determination unit compares the input start time RGtime-S and the capture end time MICtime-E, compares the latest input end time RGtime-E and the latest capture start time MICtime-S, and If the capture end time MICtime-E is older than the latest input start time RGtime-S, or the latest input end time RGtime-E is older than the latest capture start time MICtime-S , Determining that the audio data string of the predetermined length is an audio data string of the noise section,
The speech intelligibility improvement system according to claim 9 or 10.
前記音声データ発生部と、時刻監視部と、騒音区間判定部と、騒音パワー検出部と、補正値算出部と補正部の各処理をマルチプロセスの1つのプロセスとしてCPUにより実現する、ことを特徴とする請求項9記載の音声明瞭度改善システム。   Each process of the voice data generation unit, the time monitoring unit, the noise section determination unit, the noise power detection unit, the correction value calculation unit, and the correction unit is realized by the CPU as one multi-process. The speech intelligibility improvement system according to claim 9. 前記音声データ発生部と、入力された音声データ列を別のCPUに出力する音声データ出力部の各処理をマルチプロセスの1つのプロセスとして、CPUにより実現し、時刻監視部と、騒音区間判定部と、騒音パワー検出部と、音声信号出力部の各処理をマルチプロセスの1つのプロセスとして別のCPUにより実現する、ことを特徴とする請求項9記載の音声明瞭度改善システム。   Each process of the audio data generation unit and the audio data output unit that outputs the input audio data string to another CPU is realized as a multi-process by the CPU, and a time monitoring unit and a noise section determination unit 10. The speech intelligibility improvement system according to claim 9, wherein each process of the noise power detection unit and the audio signal output unit is realized by another CPU as one multi-process.
JP2008275277A 2008-10-27 2008-10-27 Speech intelligibility improving method and speech intelligibility improving system Expired - Fee Related JP5339849B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008275277A JP5339849B2 (en) 2008-10-27 2008-10-27 Speech intelligibility improving method and speech intelligibility improving system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008275277A JP5339849B2 (en) 2008-10-27 2008-10-27 Speech intelligibility improving method and speech intelligibility improving system

Publications (2)

Publication Number Publication Date
JP2010102223A true JP2010102223A (en) 2010-05-06
JP5339849B2 JP5339849B2 (en) 2013-11-13

Family

ID=42292904

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008275277A Expired - Fee Related JP5339849B2 (en) 2008-10-27 2008-10-27 Speech intelligibility improving method and speech intelligibility improving system

Country Status (1)

Country Link
JP (1) JP5339849B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9934780B2 (en) 2012-01-17 2018-04-03 GM Global Technology Operations LLC Method and system for using sound related vehicle information to enhance spoken dialogue by modifying dialogue's prompt pitch

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6146635U (en) * 1984-08-25 1986-03-28 日本信号株式会社 voice guidance device
JPH08317497A (en) * 1995-05-17 1996-11-29 Kiyoshi Kawachi Voice guidance device
JP2006173839A (en) * 2004-12-14 2006-06-29 Alpine Electronics Inc Sound output apparatus
JP2008116643A (en) * 2006-11-02 2008-05-22 Alpine Electronics Inc Audio generation apparatus

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6146635U (en) * 1984-08-25 1986-03-28 日本信号株式会社 voice guidance device
JPH08317497A (en) * 1995-05-17 1996-11-29 Kiyoshi Kawachi Voice guidance device
JP2006173839A (en) * 2004-12-14 2006-06-29 Alpine Electronics Inc Sound output apparatus
JP2008116643A (en) * 2006-11-02 2008-05-22 Alpine Electronics Inc Audio generation apparatus

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9934780B2 (en) 2012-01-17 2018-04-03 GM Global Technology Operations LLC Method and system for using sound related vehicle information to enhance spoken dialogue by modifying dialogue's prompt pitch

Also Published As

Publication number Publication date
JP5339849B2 (en) 2013-11-13

Similar Documents

Publication Publication Date Title
US9113241B2 (en) Noise removing apparatus and noise removing method
JP5219522B2 (en) Speech intelligibility improvement system and speech intelligibility improvement method
JP5092974B2 (en) Transfer characteristic estimating apparatus, noise suppressing apparatus, transfer characteristic estimating method, and computer program
JP4854630B2 (en) Sound processing apparatus, gain control apparatus, gain control method, and computer program
EP2773137B1 (en) Microphone sensitivity difference correction device
US8509451B2 (en) Noise suppressing device, noise suppressing controller, noise suppressing method and recording medium
WO2010131470A1 (en) Gain control apparatus and gain control method, and voice output apparatus
US9959886B2 (en) Spectral comb voice activity detection
JP6668995B2 (en) Noise suppression device, noise suppression method, and computer program for noise suppression
US20090232318A1 (en) Output correcting device and method, and loudspeaker output correcting device and method
WO2010058804A1 (en) Noise gate, sound collection device, and noise removal method
JP6135106B2 (en) Speech enhancement device, speech enhancement method, and computer program for speech enhancement
JP5339849B2 (en) Speech intelligibility improving method and speech intelligibility improving system
JP6844149B2 (en) Gain adjuster and gain adjustment program
JP6878776B2 (en) Noise suppression device, noise suppression method and computer program for noise suppression
JP2008070877A (en) Voice signal pre-processing device, voice signal processing device, voice signal pre-processing method and program for voice signal pre-processing
JP2005157086A (en) Speech recognition device
JP7257834B2 (en) Speech processing device, speech processing method, and speech processing system
JP4527654B2 (en) Voice communication device
JP4187615B2 (en) Output sound correction device
JP2007264132A (en) Voice detection device and its method
JPH06334457A (en) Automatic sound volume controller
CN115691532A (en) Wind noise pollution range estimation method, wind noise pollution range suppression device, medium and terminal
JP2023077339A (en) Imaging device, control method, and program
JP6079179B2 (en) Hands-free call device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110915

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130718

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130806

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130806

R150 Certificate of patent or registration of utility model

Ref document number: 5339849

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130912

LAPS Cancellation because of no payment of annual fees