JP2007086554A - Voice recognition device and program for voice recognition processing - Google Patents
Voice recognition device and program for voice recognition processing Download PDFInfo
- Publication number
- JP2007086554A JP2007086554A JP2005276996A JP2005276996A JP2007086554A JP 2007086554 A JP2007086554 A JP 2007086554A JP 2005276996 A JP2005276996 A JP 2005276996A JP 2005276996 A JP2005276996 A JP 2005276996A JP 2007086554 A JP2007086554 A JP 2007086554A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- utterance
- sound
- recognition
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、マイクロフォンアレー技術を利用する音声認識装置及び音声認識処理用プログラムに関する。 The present invention relates to a speech recognition apparatus and a speech recognition processing program that use a microphone array technology.
音声認識処理は、マイクロフォンから取り込んだ音声を登録されている認識対象語句と比較することで音声認識結果を得る技術である。このような音声認識処理は、雑音環境下において認識性能が著しく低下してしまうため、雑音対策が重要な課題となっている。 The voice recognition process is a technique for obtaining a voice recognition result by comparing a voice taken in from a microphone with a registered recognition target word / phrase. In such a speech recognition process, since the recognition performance is significantly deteriorated in a noisy environment, noise countermeasures are an important issue.
このような雑音対策としては、従来から、複数個のマイクロフォン素子から構成されるマイクロフォンアレーを用いた雑音信号の低減処理が知られている(非特許文献1参照)。この処理は、マイクロフォンアレーに音声が入力されることにより個々のマイクロフォン素子から出力される複数系統の音信号について、当該音信号に含まれる音声信号と雑音信号とが個々の系統毎に相違することを利用して雑音信号の低減処理を施し、SN比を改善した処理信号を生成する、というものである。 As a countermeasure against such noise, conventionally, a noise signal reduction process using a microphone array including a plurality of microphone elements is known (see Non-Patent Document 1). In this process, for a plurality of sound signals output from individual microphone elements when sound is input to the microphone array, the sound signals and noise signals included in the sound signals are different for each system. Is used to reduce the noise signal and generate a processed signal with an improved S / N ratio.
このようなマイクロフォンアレーを用いた雑音信号の低減処理は、遅延和アレー処理と適用型マイクロフォンアレー処理とに大別することができる。 Such noise signal reduction processing using a microphone array can be broadly divided into delay-and-sum array processing and adaptive microphone array processing.
遅延和アレー処理は、個々のマイクロフォン素子から出力される複数系統の音信号について、目的方向から到来する音信号をそれぞれ同相化した上で、同相化した複数系統の音信号を加算して処理信号とする処理である。目的方向から到来する音信号は音声信号と考えられるので、これを同相化して加算すれば、当該音声信号は強調された信号となる。これに対して、目的方向以外から到来する信号は雑音信号と考えられる。そこで、雑音信号については同相化せず、これによって時間的にずれた波形となるため、加算しても強調効果が弱い。その結果、音声信号の方が雑音信号よりも強調され、相対的に雑音信号を低減することができる。 Delay-and-sum array processing is a processing signal obtained by making the sound signals arriving from the target direction in-phase with the sound signals coming from the target direction and then adding the in-phase sound signals for the multiple sound signals output from the individual microphone elements. It is processing to. Since the sound signal coming from the target direction is considered to be an audio signal, the audio signal becomes an enhanced signal if they are in-phased and added. On the other hand, a signal coming from a direction other than the target direction is considered as a noise signal. Therefore, the noise signal is not in-phased, resulting in a time-shifted waveform, so that the enhancement effect is weak even when added. As a result, the voice signal is emphasized more than the noise signal, and the noise signal can be relatively reduced.
適用型マイクロフォンアレー処理では、雑音信号を同相化させる。そして、個々のマイクロフォン素子から出力される複数系統の音信号から同相化させた雑音信号を減算することで、雑音信号を消去する、という処理である。 In adaptive microphone array processing, the noise signal is in phase. Then, the noise signal is eliminated by subtracting the in-phase noise signal from a plurality of systems of sound signals output from the individual microphone elements.
マイクロフォンアレーを用いた雑音信号の低減処理を施すことで、確実な雑音信号の低減を図ることができる。その反面、前述したような雑音信号の低減処理は、音声信号の変容を招来する。音声信号の変容は、遅延和アレー処理と適用型マイクロフォンアレー処理とのいずれの処理を採用した場合にも発生する。このため、変容した音声信号に基いて音声認識処理を実行することになるため、認識率が低下を招いてしまうという問題が生ずる。 By performing noise signal reduction processing using a microphone array, it is possible to reliably reduce the noise signal. On the other hand, the noise signal reduction processing as described above leads to the transformation of the audio signal. The transformation of the audio signal occurs when any of the delay sum array processing and the applied microphone array processing is adopted. For this reason, since the voice recognition process is executed based on the transformed voice signal, there arises a problem that the recognition rate is lowered.
本発明の目的は、音声認識処理に際して、認識率を向上させることである。 An object of the present invention is to improve the recognition rate in speech recognition processing.
本発明の音声認識装置は、複数個のマイクロフォン素子から構成されるマイクロフォンアレーに音声が入力されることにより個々の前記マイクロフォン素子から出力される複数系統の音信号について、当該音信号に含まれる音声信号と雑音信号とが個々の系統毎に相違することを利用して雑音信号の低減処理を施し、SN比を改善した処理信号を生成する手段と、前記処理信号に基づいて発話区間を検出し、発話区間情報として出力する手段と、前記発話区間情報によって特定される発話区間内の前記音信号から発話信号を抽出する手段と、抽出された前記発話信号について音声認識処理を施し、認識結果を得る手段と、を備える。 The speech recognition apparatus according to the present invention includes a plurality of sound signals output from each of the microphone elements by inputting the sound into a microphone array including a plurality of microphone elements. A means for generating a processed signal having an improved S / N ratio by performing a noise signal reduction process using the difference between the signal and the noise signal for each system, and detecting a speech section based on the processed signal , Means for outputting as speech section information, means for extracting a speech signal from the sound signal in the speech section specified by the speech section information, and performing speech recognition processing on the extracted speech signal, Means for obtaining.
請求項1記載の発明は、一の系統の前記音信号から発話信号を抽出し、この発話信号について音声認識処理を施すようにした。 According to the first aspect of the present invention, an utterance signal is extracted from the sound signal of one system, and voice recognition processing is performed on the utterance signal.
請求項2記載の発明は、複数系統の前記音信号から前記発話区間情報によって特定される発話区間内の発話信号を抽出し、抽出された複数系統の前記発話信号について音声認識処理を施し、複数の認識結果を得、前記発話信号についての認識の成否と採用する前記発話信号との関係を定義する採用定義に従い、いずれか一つの前記認識結果を選択して出力するようにした。
The invention according to
請求項3記載の発明は、複数系統の前記音信号から前記発話区間情報によって特定される発話区間内の発話信号を抽出し、抽出された複数系統の前記発話信号について音声認識処理を施し、複数の認識結果を得、前記認識結果についてその確度を表現する認識スコアを算出し、最も高い前記認識スコアに対応する前記認識結果を選択して出力するようにした。 According to a third aspect of the present invention, an utterance signal in an utterance section specified by the utterance section information is extracted from the sound signals of a plurality of systems, and speech recognition processing is performed on the extracted utterance signals of the plurality of systems. A recognition score expressing the accuracy of the recognition result is calculated, and the recognition result corresponding to the highest recognition score is selected and output.
請求項4記載の発明は、複数系統の前記音信号から前記発話区間情報によって特定される発話区間内の発話信号を抽出し、抽出された複数系統の前記発話信号について音声認識処理を施し、複数の認識結果を得、発話信号を抽出する前記音信号の音量を算出し、最小音量の前記音信号に対応する前記認識結果を選択して出力するようにした。
The invention according to
更に、本発明は、コンピュータにインストールされ、当該コンピュータに上記処理各手段を実行させる音声認識処理用プログラムをも規定する。 Furthermore, the present invention also defines a voice recognition processing program that is installed in a computer and causes the computer to execute each of the processing means.
本発明によれば、SN比を改善した処理信号に基づく発話区間の検出を実行することでその検出精度を高め、こうして精度が高められた発話区間内の変容していない音信号から発話信号を抽出して音声認識処理を施すようにしたので、その認識率を向上させることができる。 According to the present invention, the detection accuracy is improved by executing the detection of the utterance interval based on the processed signal with improved S / N ratio, and the utterance signal is obtained from the untransformed sound signal in the utterance interval thus improved in accuracy. Since the voice recognition process is performed after extraction, the recognition rate can be improved.
本発明の第1の実施の形態を図1及び図2に基づいて説明する。 A first embodiment of the present invention will be described with reference to FIGS.
図1は、本実施の形態の音声認識装置のハードウェア構成を示すブロック図である。本実施の形態の音声認識装置101は、マイクロコンピュータによって実現されている。つまり、マイクロコンピュータは、各種演算処理を実行して各部を集中的に制御するCPU102を備え、このCPU102には、固定データを固定的に記憶するROM103と、可変データを書き換え自在に記憶するRAM104と、HDD105とがバスライン106を介して接続されている。
FIG. 1 is a block diagram showing a hardware configuration of the speech recognition apparatus according to the present embodiment. The
また、CPU102には、磁気ディスク107に対する情報の書き込みと読み取りとを実行する磁気ディスクドライブ108、CD系やDVD系等の各種の光ディスク109に対する情報の読み取り、情報書き込み可能な光ディスク109に対しては書き込みを実行する光ディスクドライブ110、各種のI/O111、及び通信インターフェース112がバスライン106を介して接続されている。
In addition, the
また、音声認識装置101を構成するマイクロコンピュータは、ディスプレイ113に情報を出力し、キーボード114及びポインティングデバイス115から情報を入力することができる。そのために、ディスプレイ113は表示制御回路116を介して、キーボード114及びポインティングデバイス115は入力制御回路117を介して、それぞれCPU102に接続されている。表示制御回路116及び入力制御回路117は、バスライン106に接続されてCPU102との間で通信自在である。
Further, the microcomputer constituting the
更に、音声認識装置101を構成するマイクロコンピュータは、音声入力回路118を備えている。音声入力回路118は、一例として、図示しない増設基板上に集積回路として形成され、音声認識装置101を構成するマイクロコンピュータの図示しない増設基板追加用スロットに差し込まれている。そして、音声入力回路118にはマイクロフォンアレー119が接続されている。マイクロフォンアレー119は、複数個のマイクロフォン素子120(図2参照)から構成されており、入力された音声等の音をそれらのマイクロフォン素子120から取り込み、個々のマイクロフォン素子120から出力する構造のものである。したがって、マイクロフォンアレー119は、マイクロフォン素子120の数だけの系統の音信号を出力することになる。音声入力回路118は、マイクロフォンアレー119が有する個々のマイクロフォン素子120に対応させて、増幅器121とアナログデジタルコンバータ122とを備えている(図2参照)。したがって、音声入力回路118は、マイクロフォンアレー119に入力された音信号をデジタル信号に変換し、マイクロフォン素子120の数だけの系統のデジタル化された音信号としてバスライン106上に出力可能である。
Further, the microcomputer constituting the
別の実施の形態として、音声入力回路118をソフトウェアによって生成することも可能である。もっても、処理速度の上からは、集積回路によって音声入力回路118を構成することが好ましい。
In another embodiment, the
更に別の実施の形態としては、マイクロフォンアレー119それ自体が増幅器121及びアナログデジタルコンバータ122を内蔵していても良い。つまり、マイクロフォンアレー119は、音声認識装置101を構成するマイクロコンピュータから見ると、別付け部品ということになるが、このようなマイクロフォンアレー119を構成する図示しないハウジングが増幅器121及びアナログデジタルコンバータ122を内蔵していても良い。この場合、音声入力回路118は、アナログデジタルコンバータ122から出力されたデジタル化された音信号を例えばRAM104に向けて出力する構成を主要構成として備えているだけで良い。
In still another embodiment, the
ここで、音声認識装置101を構成するマイクロコンピュータは、HDD105に各種の処理プログラムをインストールすることが可能である。代表的には、OS(オペレーティングシステム)がインストールされている他、HDD105には、音声認識処理用プログラムもインストールされている。このような音声認識処理用プログラムは、一例として、磁気ディスク107に記憶保存され、磁気ディスクドライブ108を介して読み取られてHDD105にインストールされる。音声認識処理用プログラムは、別の一例として、光ディスク109に記憶保存され、光ディスクドライブ110を介して読み取られてHDD105にインストールされる。更に別の一例として、音声認識処理用プログラムは、通信インターフェース112を介して接続された上位機(例えばイントラネットの場合)やウェブページ(例えばインターネットの場合)からダウンロードし、HDD105にインストールしたものであっても良い。これらの各種例において、HDD105、磁気ディスク107、光ディスク109は、音声認識処理用プログラムを記憶する記憶媒体となる。
Here, the microcomputer constituting the
音声認識装置101を構成するマイクロコンピュータの起動時、処理速度の高速度化を図るために、HDD105にインストールされたOSの全部又は一部がRAM104にコピーされる。同様の目的で、HDD105にインストールされた音声認識用処理プログラムも、一例としてその起動時等のタイミングで、その全部又は一部がRAM104にコピーされる。これにより、音声認識用処理プログラムは、単独で、あるいはOSと協働して、CPU102に各種機能を実行させる。これらの機能は、音声認識用処理プログラムが意図する目的達成手段としても認識し得る。
When the microcomputer constituting the
図2は、音声認識装置101の機能ブロック図である。この機能ブロック図は、音声認識装置101を構成するマイクロコンピュータにおいて、起動した音声認識用処理プログラムに従いCPU102が実行される各種機能をブロック化して示すものである。これらの各種機能ブロックとして、音声認識装置101は、マイクロフォンアレー処理部131、発話区間検出部141、発話区間抽出部151、及び音声認識部161を有する。
FIG. 2 is a functional block diagram of the
マイクロフォンアレー処理部131は、マイクロフォンアレー119が備えるマイクロフォン素子120から出力されて増幅器121で増幅されアナログデジタルコンバータ122でデジタル変換された複数系統の音信号について、当該音信号に含まれる音声信号と雑音信号とが個々の系統毎に相違することを利用して雑音信号の低減処理を施し、SN比を改善した処理信号を生成する。マイクロフォンアレー処理部131による雑音信号の低減処理は、一例として遅延和アレー処理により実行され、別の一例として適用型マイクロフォンアレー処理により実行される。
The microphone
遅延和アレー処理は、前述したように、個々のマイクロフォン素子120から出力される複数系統の音信号について、目的方向から到来する音信号をそれぞれ同相化した上で、同相化した複数系統の音信号を加算して処理信号とする処理である。このため、遅延和アレー処理では、音声信号が到来する目的方向が既知である必要がある。こうすることで、目的方向から到来する音信号は音声信号となり、これを同相化して加算すれば、当該音声信号は強調された信号となる。これに対して、目的方向以外から到来する信号は雑音信号となるので、雑音信号については同相化しない。これによって、雑音信号は時間的にずれた波形となるため、加算しても強調効果が弱い。その結果、音声信号の方が雑音信号よりも強調され、相対的に雑音信号を低減することができるわけである。
As described above, the delay-and-sum array processing is performed by making the sound signals coming from the target direction in-phase with respect to the plurality of sound signals output from the
適用型マイクロフォンアレー処理は、前述したように、雑音信号を同相化させ、個々のマイクロフォン素子120から出力される複数系統の音信号から同相化させた雑音信号を減算することで、雑音信号を消去する処理である。適用型マイクロフォンアレー処理においては、遅延和アレー処理と異なり、遅延量、換言すると雑音信号の到来方向を知っている必要がない。あるマイクロフォン素子120から出力される一の系統の音信号の位相を基準とし、減算出力のパワーを監視しながら、他のマイクロフォン素子120から出力される別の系統の音信号の位相を遅延させ、減算出力のパワーの値が最小となるように各遅延量を設定すれば良い。減算出力のパワーの値が最小となれば、雑音は消去されたことになる。
As described above, the adaptive microphone array process eliminates the noise signal by making the noise signal in-phase and subtracting the in-phase noise signal from multiple sound signals output from the
以上、マイクロフォンアレー処理部131による雑音信号の低減処理として、遅延和アレー処理と適用型マイクロフォンアレー処理とを紹介した。もっとも、本実施の形態のマイクロフォンアレー処理部131は、マイクロフォンアレー119が備えるマイクロフォン素子120から出力された複数系統の音信号について、当該音信号に含まれる音声信号と雑音信号とが個々の系統毎に相違することを利用した雑音信号の低減処理を実行するのであれば、その処理形式を問わない。また、マイクロフォンアレー処理部131が実行すべき処理については、前述した非特許文献1を参照することで、各種処理を容易に実施可能である。
As described above, the delay sum array processing and the applied microphone array processing have been introduced as noise signal reduction processing by the microphone
発話区間検出部141は、マイクロフォンアレー処理部131が出力する処理信号に基づいて発話区間を検出し、発話区間情報として出力する処理を実行する。このような発話区間検出部141での処理としては、音声パワー包絡の立ち上がり立ち下りにより検出する手法、基本周波数を抽出して検出する手法等、従来から知られている様々な手法を採用して実施することができる。
The utterance
発話区間抽出部151は、一の系統の音信号から発話区間情報によって特定される発話区間内の発話信号を抽出する処理を実行する。どの音信号を採用するかは、予め固定的に定めておけば良い。発話区間抽出部151が実施する発話信号の抽出処理は、従来から採用されている各種の処理によって容易に実施可能である。
The utterance
本実施の形態において重要なことは、第一に、発話信号を抽出すべき発話区間として、発話区間情報によって特定される発話区間を採用している点である。つまり、発話区間情報は、前述したマイクロフォンアレー処理部131の処理によって生成された処理信号に基いて発話区間検出部141によって検出された発話区間である。マイクロフォンアレー処理部131は、アナログデジタルコンバータ122によってデジタル化された音信号から雑音信号を低減させた音信号、つまり、SN比が改善された処理信号を生成する。発話区間検出部141は、そのようなSN比が改善された処理信号に基づいて発話区間を検出するので、高い精度で発話区間を検出し得る。
What is important in the present embodiment is that, firstly, the utterance section specified by the utterance section information is adopted as the utterance section from which the utterance signal is to be extracted. That is, the utterance section information is an utterance section detected by the utterance
本実施の形態において重要なことの第二は、発話区間抽出部151において、マイクロフォンアレー処理部131によって生成された処理信号を利用して発話信号を抽出するのではなく、アナログデジタルコンバータ122によってデジタル信号に変換された音信号中、一の系統の音信号から発話信号を抽出する処理が実行される点である。前述したように、マイクロフォンアレー処理部131によって生成された処理信号は、雑音信号の低減という側面については優れた特性を有する反面、音声信号の変容を招来してしまう。このため、そのような変容した音声信号である処理信号から発話信号を抽出すると、その後に続く音声認識部161での音声認識処理での認識率を低下させてしまう。そこで、本実施の形態では、発話区間抽出部151ではアナログデジタルコンバータ122によってデジタル信号に変換された一の系統の音信号を用い、この音信号から発話信号を抽出する処理を実行する。これは、マイクロフォンアレー処理部131によって生成される前の音信号には雑音信号が含まれているとしても、マイクロフォンアレー処理部131による生成後の音信号が変容してしまっている処理信号を用いた声認識処理の処理結果よりは、雑音信号交じりの音信号に基づく音声認識処理の処理結果の方が、認識率の低下が少ないという知見に基づくものである。
The second important thing in the present embodiment is that the utterance
音声認識処理は、抽出された発話信号を辞書に登録された認識対象語句と比較し、近似する認識対象語句を抽出する、という処理である。このような音声認識処理は、従来から知られている様々な手法によって実行可能である。 The speech recognition process is a process of comparing an extracted speech signal with a recognition target word / phrase registered in a dictionary and extracting an approximate recognition target word / phrase. Such speech recognition processing can be executed by various methods known in the art.
この際、音声認識部161は、抽出された発話信号、つまり、アナログデジタルコンバータ122によってデジタル信号に変換された一の系統の音信号から抽出された発話信号について音声認識処理を施し、認識結果を得る。その結果、本実施の形態では、音声認識部161による音声認識処理の認識率を向上させることが可能である。
At this time, the
以上、本実施の形態では、マイクロコンピュータによって音声認識装置101を実現させた一例を示した。これに対して、別の実施の一形態としては、図2に示すマイクロフォンアレー処理部131、発話区間検出部141、発話区間抽出部151及び音声認識部161の全部又は一部を、集積回路によって実現させても良い。
As described above, in the present embodiment, an example in which the
本発明の第2の実施の形態を図3ないし図5に基づいて説明する。第1の実施の形態と同一部分は同一符号で示し説明も省略する。 A second embodiment of the present invention will be described with reference to FIGS. The same parts as those of the first embodiment are denoted by the same reference numerals, and description thereof is also omitted.
図3は、本実施の形態の音声認識装置101の機能ブロック図である。本実施の形態が第1の実施の形態と相違する点は、発話区間抽出部151が取り込むデジタル化された音信号の数である。本実施の形態では、一例として、マイクロフォンアレー119は、図3中で「A」と「B」と表記される二つのマイクロフォン素子120を備えている。そして、発話区間抽出部151は、それらの二つのマイクロフォン素子120が出力する両系統の音信号のいずれをも取り込み、両系統の信号から発話区間検出部141によって検出された発話区間情報によって特定される発話区間内の発話信号を抽出する処理を実行する。そして、音声認識部161は、それらの二系統の抽出された発話信号に対して音声認識処理を施し、二種類の認識結果を得る。
FIG. 3 is a functional block diagram of the
別の実施の形態として、マイクロフォンアレー119は、三つ以上のマイクロフォン素子120を備えて三系統以上のデジタル化された音信号を出力し、これらの各系統の音信号がマイクロフォンアレー処理部131に送信される構成であっても良い。この場合、発話区間抽出部151は、マイクロフォンアレー119が出力する全ての系統のデジタル化された音信号から発話信号を抽出する構成であっても、マイクロフォンアレー119が出力する一部の系統のデジタル化された音信号のみから発話信号を抽出する構成であっても、いずれでも良い。
As another embodiment, the
図4は、採用定義を例示する模式図である。本実施の形態では、音声認識処理用プログラムは、採用定義201を有している。採用定義201は、発話信号についての認識の成否と採用する発話信号との関係を定義する。図4中、認識結果Aは、図3中で「A」と表記されているマイクロフォン素子120から出力されてアナログデジタルコンバータ122でデジタル化された音信号に基づく認識結果を、認識結果Bは、図3中で「B」と表記されているマイクロフォン素子120から出力されてアナログデジタルコンバータ122でデジタル化された音信号に基づく認識結果を、それぞれ示している。図4中の選択規則は、選択される方の認識結果である。図4に示すように、認識結果Aと認識結果Bとが共に認識成功の場合、認識結果Aが選択される。認識結果Aが認識成功で認識結果Bが認識失敗の場合も同様である。これに対して、認識結果Aが認識失敗で認識結果Bが認識成功の場合には、認識結果Bが選択される。認識結果Aと認識結果Bとが共に認識失敗の場合は、エラーとなり、いずれの認識結果も採用されない。
FIG. 4 is a schematic diagram illustrating the employment definition. In the present embodiment, the speech recognition processing program has an
図3に戻る。図3に示すように、本実施の形態の音声認識装置101は、第1の実施の形態の音声認識装置101が備えていない音声認識結果選択部171を備えている。この音声認識結果選択部171は、音声認識処理用プログラムに従いCPU102が実行する機能の一つであり、図4に例示する採用定義201に従い、いずれか一つの認識結果を選択して出力する。
Returning to FIG. As illustrated in FIG. 3, the
したがって、本実施の形態によれば、発話区間抽出部151は、二つのマイクロフォン素子120が出力する両系統の音信号のいずれをも取り込んで発話信号を抽出し、これらの二系統の発話信号に対して音声認識部161が音声認識処理を施して二種類の認識結果を得る。そして、音声認識結果選択部171が採用定義201に従いいずれか一つの認識結果を選択して出力する。
Therefore, according to the present embodiment, the utterance
図5は、採用定義201に従った認識結果の選択態様を例示する模式図である。音声認識部161での音声認識処理の結果、認識結果Aは認識失敗であり、認識結果Bは認識成功で「ラーメン」という認識結果が得られた場合、音声認識結果選択部171は、採用定義201に従い認識結果B、つまり「ラーメン」という認識結果を選択して出力する。
FIG. 5 is a schematic diagram illustrating a selection mode of recognition results according to the
このように、本実施の形態によれば、二種類の認識結果から採用定義201に従い選択された認識結果が選択されて出力されるので、音声認識処理での認識率がより向上する。
As described above, according to the present embodiment, the recognition result selected from the two types of recognition results according to the
本発明の第3の実施の形態を図6に基づいて説明する。第2の実施の形態と同一部分は同一符号で示し説明も省略する。 A third embodiment of the present invention will be described with reference to FIG. The same parts as those of the second embodiment are denoted by the same reference numerals, and description thereof is also omitted.
図6は、認識結果に基づく認識スコアを例示する模式図である。本実施の形態は、認識結果Aと認識結果Bとのいずれかを採用して出力する点については、第2の実施の形態と共通性を有している。これに対して、本実施の形態では、図4に例示するような採用定義201を用いず、認識結果に伴われる認識スコアに基づいていずれの認識結果を採用するのかを選択する。この点が、第2の実施の形態との相違である。
FIG. 6 is a schematic diagram illustrating a recognition score based on the recognition result. This embodiment has commonality with the second embodiment in that either the recognition result A or the recognition result B is adopted and output. On the other hand, in the present embodiment, which of the recognition results is to be adopted is selected based on the recognition score accompanying the recognition result without using the
つまり、音声認識結果選択部171は、認識結果についてその確度を表現する認識スコアを算出する。認識スコアの算出手法については、従来の様々な手法を採用することができ、その説明も省略する。そして、音声認識結果選択部171は、最も高い認識スコアに対応する認識結果を選択して出力する。
That is, the speech recognition
例えば、図6を参照すると、図6(a)は、図3中で「A」と表記されているマイクロフォン素子120から出力されてアナログデジタルコンバータ122でデジタル化された音信号に基づく認識結果Aを、図6(b)は、図3中で「B」と表記されているマイクロフォン素子120から出力されてアナログデジタルコンバータ122でデジタル化された音信号に基づく認識結果Bを、それぞれ示している。認識結果Aは、発話区間抽出部151で音信号から抽出された発話信号に基づいて、「ラーメン」、「ラー油」、「メンマ」という三種類の認識結果を順位1、2、3の順番で得ている。音声認識結果選択部171が算出したそれぞれの認識スコアは、「ラーメン」が70、「ラー油」が50、「メンマ」が20である。なお、図6(a)中、順位4は認識失敗であるが、認識スコアは10として算出されている。また、認識結果Bは、発話区間抽出部151で音信号から抽出された発話信号に基づいて、「ラー油」、「ラーメン」、「メンマ」という三種類の認識結果を順位1、2、4の順番で得ている。音声認識結果選択部171が算出したそれぞれの認識スコアは、「ラー油」が60、「ラーメン」が30、「メンマ」が5である。なお、図6(b)中、順位3は認識失敗であるが、認識スコアは10として算出されている。したがって、図6の示す一例では、音声認識結果選択部171は、最も高い認識スコアである70に対応する認識結果、つまりラーメンを選択して出力することになる。
For example, referring to FIG. 6, FIG. 6A shows a recognition result A based on a sound signal output from the
このように、本実施の形態によれば、二種類の認識結果に伴われる認識スコアが最も高い認識結果が選択されて出力されるので、音声認識処理での認識率がより向上する。 Thus, according to the present embodiment, the recognition result having the highest recognition score associated with the two types of recognition results is selected and output, so that the recognition rate in the speech recognition processing is further improved.
本発明の第4の実施の形態を図7及び図8に基づいて説明する。第2の実施の形態と同一部分は同一符号で示し説明も省略する。本実施の形態は、認識結果Aと認識結果Bとのいずれかを採用して出力する点については、第2の実施の形態と共通性を有している。これに対して、本実施の形態では、図4に例示するような採用定義201を用いず、発話区間抽出部151が抽出する二系統の発話信号の音量に大小に応じていずれの認識結果を採用するのかを選択する。この点が、第2の実施の形態との相違である。
A fourth embodiment of the present invention will be described with reference to FIGS. The same parts as those of the second embodiment are denoted by the same reference numerals, and description thereof is also omitted. This embodiment has commonality with the second embodiment in that either the recognition result A or the recognition result B is adopted and output. On the other hand, in the present embodiment, without using the
図7は、本実施の形態の音声認識装置の機能ブロック図である。本実施の形態の音声認識装置101は、音声認識処理用プログラムに従いCPU102が実行する機能の一つとして、音量算出部181を備えている。音量算出部181は、二つのマイクロフォン素子120が出力する両系統の音信号から発話区間抽出部151が抽出する発話信号を取り込み、その音量を算出する。音量は、二系統の発話信号の振幅を参照することで、容易に算出される。
FIG. 7 is a functional block diagram of the speech recognition apparatus according to the present embodiment. The
音声認識結果選択部171は、音量算出部181が算出した音量のうち、最小音量の音信号に対応する認識結果を選択して出力する。これは、二系統の発話信号にはいずれにも話者の音声信号が含まれているのに対して、音量が大きい方の発話信号はそのような音声信号以外の雑音信号が多く含まれていると予想されるからである。
The voice recognition
図8は、二系統の音信号のそれぞれについて算出された音量を例示する模式図である。図8中、発話信号Aは、図3中で「A」と表記されているマイクロフォン素子120から出力されてアナログデジタルコンバータ122でデジタル化された音信号に基づく発話信号を、発話信号Bは、図3中で「B」と表記されているマイクロフォン素子120から出力されてアナログデジタルコンバータ122でデジタル化された音信号に基づく発話信号を、それぞれ示している。図8に示す一例では、発話信号Aは−20dB、発話信号Bは−25dBである。したがって、音声認識結果選択部171は、より音量が小さい方の発話信号Bに対応する認識結果を選択して出力することになる。つまり、発話信号Aに対応する認識結果である「ラーメン」は選択されず、発話信号Bに対応する認識結果である「ラー油」が選択されることになる。
FIG. 8 is a schematic diagram illustrating the volume calculated for each of the two systems of sound signals. In FIG. 8, an utterance signal A is an utterance signal based on a sound signal output from the
このように、本実施の形態によれば、二種類の認識結果から音量が小さい方の発話信号に対応する認識結果が選択されて出力されるので、音声認識処理での認識率がより向上する。 As described above, according to the present embodiment, the recognition result corresponding to the speech signal with the lower volume is selected and output from the two types of recognition results, so that the recognition rate in the speech recognition processing is further improved. .
119 マイクロフォンアレー
120 マイクロフォン素子
201 採用定義
119
Claims (8)
前記処理信号に基づいて発話区間を検出し、発話区間情報として出力する手段と、
一の系統の前記音信号から前記発話区間情報によって特定される発話区間内の発話信号を抽出する手段と、
抽出された前記発話信号について音声認識処理を施し、認識結果を得る手段と、
を備える音声認識装置。 When sound is input to a microphone array composed of a plurality of microphone elements, a plurality of sound signals output from each of the microphone elements, the sound signals and noise signals included in the sound signals are individually Means for reducing the noise signal by utilizing the difference for each system, and generating a processed signal having an improved S / N ratio;
Means for detecting an utterance interval based on the processed signal and outputting the utterance interval information;
Means for extracting an utterance signal in an utterance section specified by the utterance section information from the sound signal of one system;
Means for performing speech recognition processing on the extracted speech signal and obtaining a recognition result;
A speech recognition apparatus comprising:
前記処理信号に基づいて発話区間を検出し、発話区間情報として出力する手段と、
複数系統の前記音信号から前記発話区間情報によって特定される発話区間内の発話信号を抽出する手段と、
抽出された複数系統の前記発話信号について音声認識処理を施し、複数の認識結果を得る手段と、
前記発話信号についての認識の成否と採用する前記発話信号との関係を定義する採用定義に従い、いずれか一つの前記認識結果を選択して出力する手段と、
を備える音声認識装置。 When sound is input to a microphone array composed of a plurality of microphone elements, a plurality of sound signals output from each of the microphone elements, the sound signals and noise signals included in the sound signals are individually Means for reducing the noise signal by utilizing the difference for each system, and generating a processed signal having an improved S / N ratio;
Means for detecting an utterance interval based on the processed signal and outputting the utterance interval information;
Means for extracting an utterance signal in an utterance section specified by the utterance section information from the sound signals of a plurality of systems;
Means for performing speech recognition processing on the extracted speech signals of a plurality of systems and obtaining a plurality of recognition results;
Means for selecting and outputting any one of the recognition results according to the adoption definition that defines the relationship between the success or failure of recognition of the speech signal and the speech signal to be adopted;
A speech recognition apparatus comprising:
前記処理信号に基づいて発話区間を検出し、発話区間情報として出力する手段と、
複数系統の前記音信号から前記発話区間情報によって特定される発話区間内の発話信号を抽出する手段と、
抽出された複数系統の前記発話信号について音声認識処理を施し、複数の認識結果を得る手段と、
前記認識結果についてその確度を表現する認識スコアを算出する手段と、
最も高い前記認識スコアに対応する前記認識結果を選択して出力する手段と、
を備える音声認識装置。 When sound is input to a microphone array composed of a plurality of microphone elements, a plurality of sound signals output from each of the microphone elements, the sound signals and noise signals included in the sound signals are individually Means for reducing the noise signal by utilizing the difference for each system, and generating a processed signal having an improved S / N ratio;
Means for detecting an utterance interval based on the processed signal and outputting the utterance interval information;
Means for extracting an utterance signal in an utterance section specified by the utterance section information from the sound signals of a plurality of systems;
Means for performing speech recognition processing on the extracted speech signals of a plurality of systems and obtaining a plurality of recognition results;
Means for calculating a recognition score expressing the accuracy of the recognition result;
Means for selecting and outputting the recognition result corresponding to the highest recognition score;
A speech recognition apparatus comprising:
前記処理信号に基づいて発話区間を検出し、発話区間情報として出力する手段と、
複数系統の前記音信号から前記発話区間情報によって特定される発話区間内の発話信号を抽出する手段と、
抽出された複数系統の前記発話信号について音声認識処理を施し、複数の認識結果を得る手段と、
発話信号を抽出する前記音信号の音量を算出する手段と、
最小音量の前記音信号に対応する前記認識結果を選択して出力する手段と、
を備える音声認識装置。 When sound is input to a microphone array composed of a plurality of microphone elements, a plurality of sound signals output from each of the microphone elements, the sound signals and noise signals included in the sound signals are individually Means for reducing the noise signal by utilizing the difference for each system, and generating a processed signal with improved S / N ratio;
Means for detecting an utterance interval based on the processed signal and outputting the utterance interval information;
Means for extracting an utterance signal in an utterance section specified by the utterance section information from the sound signals of a plurality of systems;
Means for performing speech recognition processing on the extracted speech signals of a plurality of systems and obtaining a plurality of recognition results;
Means for calculating a volume of the sound signal for extracting a speech signal;
Means for selecting and outputting the recognition result corresponding to the sound signal of the minimum volume;
A speech recognition apparatus comprising:
複数個のマイクロフォン素子から構成されるマイクロフォンアレーに音声が入力されることにより個々の前記マイクロフォン素子から出力される複数系統の音信号について、当該音信号に含まれる音声信号と雑音信号とが個々の系統毎に相違することを利用して雑音信号の低減処理を施し、SN比を改善した処理信号を生成する手段と、
前記処理信号に基づいて発話区間を検出し、発話区間情報として出力する手段と、
一の系統の前記音信号から前記発話区間情報によって特定される発話区間内の発話信号を抽出する手段と、
抽出された前記発話信号について音声認識処理を施し、認識結果を得る手段と、
を実行させる音声認識処理用プログラム。 Installed on a computer,
When sound is input to a microphone array composed of a plurality of microphone elements, a plurality of sound signals output from each of the microphone elements, the sound signals and noise signals included in the sound signals are individually Means for reducing the noise signal by utilizing the difference for each system, and generating a processed signal having an improved S / N ratio;
Means for detecting an utterance interval based on the processed signal and outputting the utterance interval information;
Means for extracting an utterance signal in an utterance section specified by the utterance section information from the sound signal of one system;
Means for performing speech recognition processing on the extracted speech signal and obtaining a recognition result;
A speech recognition processing program that executes
複数個のマイクロフォン素子から構成されるマイクロフォンアレーに音声が入力されることにより個々の前記マイクロフォン素子から出力される複数系統の音信号について、当該音信号に含まれる音声信号と雑音信号とが個々の系統毎に相違することを利用して雑音信号の低減処理を施し、SN比を改善した処理信号を生成する手段と、
前記処理信号に基づいて発話区間を検出し、発話区間情報として出力する手段と、
複数系統の前記音信号から前記発話区間情報によって特定される発話区間内の発話信号を抽出する手段と、
抽出された複数系統の前記発話信号について音声認識処理を施し、複数の認識結果を得る手段と、
前記発話信号についての認識の成否と採用する前記発話信号との関係を定義する採用定義に従い、いずれか一つの前記認識結果を選択して出力する手段と、
を実行させる音声認識処理用プログラム。 Installed on a computer,
When sound is input to a microphone array composed of a plurality of microphone elements, a plurality of sound signals output from each of the microphone elements, the sound signals and noise signals included in the sound signals are individually Means for reducing the noise signal by utilizing the difference for each system, and generating a processed signal with improved S / N ratio;
Means for detecting an utterance interval based on the processed signal and outputting the utterance interval information;
Means for extracting an utterance signal in an utterance section specified by the utterance section information from the sound signals of a plurality of systems;
Means for performing speech recognition processing on the extracted speech signals of a plurality of systems and obtaining a plurality of recognition results;
Means for selecting and outputting any one of the recognition results according to the adoption definition that defines the relationship between the success or failure of recognition of the speech signal and the speech signal to be adopted;
A speech recognition processing program that executes
複数個のマイクロフォン素子から構成されるマイクロフォンアレーに音声が入力されることにより個々の前記マイクロフォン素子から出力される複数系統の音信号について、当該音信号に含まれる音声信号と雑音信号とが個々の系統毎に相違することを利用して雑音信号の低減処理を施し、SN比を改善した処理信号を生成する手段と、
前記処理信号に基づいて発話区間を検出し、発話区間情報として出力する手段と、
複数系統の前記音信号から前記発話区間情報によって特定される発話区間内の発話信号を抽出する手段と、
抽出された複数系統の前記発話信号について音声認識処理を施し、複数の認識結果を得る手段と、
前記認識結果についてその確度を表現する認識スコアを算出する手段と、
最も高い前記認識スコアに対応する前記認識結果を選択して出力する手段と、
を実行させる音声認識処理用プログラム。 Installed on a computer,
When sound is input to a microphone array composed of a plurality of microphone elements, a plurality of sound signals output from each of the microphone elements, the sound signals and noise signals included in the sound signals are individually Means for reducing the noise signal by utilizing the difference for each system, and generating a processed signal having an improved S / N ratio;
Means for detecting an utterance interval based on the processed signal and outputting the utterance interval information;
Means for extracting an utterance signal in an utterance section specified by the utterance section information from the sound signals of a plurality of systems;
Means for performing speech recognition processing on the extracted speech signals of a plurality of systems and obtaining a plurality of recognition results;
Means for calculating a recognition score expressing the accuracy of the recognition result;
Means for selecting and outputting the recognition result corresponding to the highest recognition score;
A speech recognition processing program that executes
複数個のマイクロフォン素子から構成されるマイクロフォンアレーに音声が入力されることにより個々の前記マイクロフォン素子から出力される複数系統の音信号について、当該音信号に含まれる音声信号と雑音信号とが個々の系統毎に相違することを利用して雑音信号の低減処理を施し、SN比を改善した処理信号を生成する手段と、
前記処理信号に基づいて発話区間を検出し、発話区間情報として出力する手段と、
複数系統の前記音信号から前記発話区間情報によって特定される発話区間内の発話信号を抽出する手段と、
抽出された複数系統の前記発話信号について音声認識処理を施し、複数の認識結果を得る手段と、
発話信号を抽出する前記音信号の音量を算出する手段と、
最小音量の前記音信号に対応する前記認識結果を選択して出力する手段と、
を実行させる音声認識処理用プログラム。
Installed on a computer,
When sound is input to a microphone array composed of a plurality of microphone elements, a plurality of sound signals output from each of the microphone elements, the sound signals and noise signals included in the sound signals are individually Means for reducing the noise signal by utilizing the difference for each system, and generating a processed signal with improved S / N ratio;
Means for detecting an utterance interval based on the processed signal and outputting the utterance interval information;
Means for extracting an utterance signal in an utterance section specified by the utterance section information from the sound signals of a plurality of systems;
Means for performing speech recognition processing on the extracted speech signals of a plurality of systems and obtaining a plurality of recognition results;
Means for calculating a volume of the sound signal for extracting a speech signal;
Means for selecting and outputting the recognition result corresponding to the sound signal of the minimum volume;
A speech recognition processing program that executes
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005276996A JP2007086554A (en) | 2005-09-26 | 2005-09-26 | Voice recognition device and program for voice recognition processing |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005276996A JP2007086554A (en) | 2005-09-26 | 2005-09-26 | Voice recognition device and program for voice recognition processing |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007086554A true JP2007086554A (en) | 2007-04-05 |
Family
ID=37973575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005276996A Pending JP2007086554A (en) | 2005-09-26 | 2005-09-26 | Voice recognition device and program for voice recognition processing |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007086554A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107742522A (en) * | 2017-10-23 | 2018-02-27 | 科大讯飞股份有限公司 | Target voice acquisition methods and device based on microphone array |
JP2020194093A (en) * | 2019-05-28 | 2020-12-03 | 沖電気工業株式会社 | Voice recognition device, voice recognition program, and voice recognition method |
-
2005
- 2005-09-26 JP JP2005276996A patent/JP2007086554A/en active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107742522A (en) * | 2017-10-23 | 2018-02-27 | 科大讯飞股份有限公司 | Target voice acquisition methods and device based on microphone array |
JP2021500634A (en) * | 2017-10-23 | 2021-01-07 | アイフライテック カンパニー,リミテッド | Target voice acquisition method and device based on microphone array |
US11081123B2 (en) | 2017-10-23 | 2021-08-03 | Iflytek Co., Ltd. | Microphone array-based target voice acquisition method and device |
CN107742522B (en) * | 2017-10-23 | 2022-01-14 | 科大讯飞股份有限公司 | Target voice obtaining method and device based on microphone array |
JP7011075B2 (en) | 2017-10-23 | 2022-01-26 | アイフライテック カンパニー,リミテッド | Target voice acquisition method and device based on microphone array |
JP2020194093A (en) * | 2019-05-28 | 2020-12-03 | 沖電気工業株式会社 | Voice recognition device, voice recognition program, and voice recognition method |
JP7404657B2 (en) | 2019-05-28 | 2023-12-26 | 沖電気工業株式会社 | Speech recognition device, speech recognition program, and speech recognition method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4282704B2 (en) | Voice section detection apparatus and program | |
KR102654874B1 (en) | Neural network device for speaker recognition, and operation method of the same | |
JP6637848B2 (en) | Speech recognition device and method and electronic device | |
CN101149928B (en) | Sound signal processing method, sound signal processing apparatus and computer program | |
WO2017154282A1 (en) | Voice processing device and voice processing method | |
JPWO2019106517A5 (en) | ||
CN111801951B (en) | Howling suppression device, method thereof, and computer-readable recording medium | |
JP2007086554A (en) | Voice recognition device and program for voice recognition processing | |
JP2005534958A (en) | Voice control system and method | |
KR102324829B1 (en) | Apparatus and Method for correcting error of speech recognition | |
JP5852550B2 (en) | Acoustic model generation apparatus, method and program thereof | |
JP2011107650A (en) | Voice feature amount calculation device, voice feature amount calculation method, voice feature amount calculation program and voice recognition device | |
JP5982265B2 (en) | Speech recognition apparatus, speech recognition method, and program | |
WO2012150658A1 (en) | Voice recognition device and voice recognition method | |
WO2011083528A1 (en) | Data processing apparatus, computer program therefor, and data processing method | |
KR20230118165A (en) | Adapting Automated Speech Recognition Parameters Based on Hotword Attributes | |
JP5673239B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
JP5958378B2 (en) | Audio signal processing apparatus, control method and program for audio signal processing apparatus | |
JP2007156361A (en) | Voice processor and computer program for voice processing | |
JP6867939B2 (en) | Computers, language analysis methods, and programs | |
JP2020177060A (en) | Voice recognition system and voice recognition method | |
CN111816164A (en) | Method and apparatus for speech recognition | |
EP3852099B1 (en) | Keyword detection apparatus, keyword detection method, and program | |
US11600273B2 (en) | Speech processing apparatus, method, and program | |
JP2008129028A (en) | Acoustic model adaptation processing method, acoustic model adaptation processing device, acoustic model adaptation processing program, and recordng medium |