JP5476760B2 - Command recognition device - Google Patents
Command recognition device Download PDFInfo
- Publication number
- JP5476760B2 JP5476760B2 JP2009076789A JP2009076789A JP5476760B2 JP 5476760 B2 JP5476760 B2 JP 5476760B2 JP 2009076789 A JP2009076789 A JP 2009076789A JP 2009076789 A JP2009076789 A JP 2009076789A JP 5476760 B2 JP5476760 B2 JP 5476760B2
- Authority
- JP
- Japan
- Prior art keywords
- command
- dummy
- phoneme
- phoneme string
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、音声によるコマンドを認識する技術に関する。 The present invention relates to a technique for recognizing a voice command.
音声を用いて電子機器を操作する音声コマンドコントロール、あるいは単にコマンドコントロールと呼ばれる機能がある。例えば音声でカメラのシャッターを切るというような用途に用いられる。具体的には、例えば、カメラに向かって「はい、チーズ」と言うと、その音声に反応してシャッターが切れるものが提案されている(例えば、特許文献1参照)。 There is a function called voice command control for operating an electronic device using voice, or simply command control. For example, it is used for applications such as releasing the shutter of a camera with sound. Specifically, for example, when saying “Yes, cheese” toward the camera, there has been proposed one in which the shutter is released in response to the sound (for example, see Patent Document 1).
上述したようなコマンドコントロールでは、「はい、チーズ」という音声に対してのみ反応し、その他の音声に対しては反応しないことが望まれる。例えば、複数の人の写真をとる場合に、「はい、写真とるよ」、「はい、集まって」などということがあるが、そのような声に反応してシャッターが切れては困るという問題がある。 In the command control as described above, it is desired to react only to the voice “Yes, cheese” and not to other voices. For example, when taking pictures of multiple people, there are cases such as "Yes, I will take a picture", "Yes, get together", etc. However, there is a problem that it is difficult to release the shutter in response to such a voice is there.
従来のDPマッチングを用いた手法では、或る人の「はい、チーズ」という音声を予めテンプレート登録しておく。そしてそのテンプレートと発音した音声とを比較してその類似度がある閾値以上であるかという基準をもとに「はい、チーズ」と言ったかどうかを判定する。閾値を上げれば「はい、チーズ」以外の音声による誤動作は防ぐことができるが、逆に「はい、チーズ」と言ったにもかかわらず動作しない誤棄却が増えてしまい、閾値の設定が重要になる。
しかしながら、登録した発話内容によって閾値は異なり、また周囲の騒音によりその基準も変わるため、様々なユーザの発話に対して期待した動作をさせるようなプリセットの閾値を事前に設定することは困難である。
In the conventional technique using DP matching, a voice of “Yes, cheese” of a certain person is registered in advance as a template. Then, the template is compared with the sound that is pronounced, and it is determined whether or not “yes, cheese” is based on the criterion that the similarity is greater than a certain threshold. Increasing the threshold can prevent malfunctions due to voices other than “Yes, cheese”, but conversely, “Yes, cheese” increases the number of false rejections that do not work, making it important to set the threshold. Become.
However, the threshold value varies depending on the registered utterance content, and the standard also changes depending on the ambient noise. Therefore, it is difficult to set a preset threshold value that makes the expected operation for various user utterances in advance. .
また、従来のHMM(隠れマルコフモデル)を用いた大語彙音声認識システムを使った方法をこのようなコマンドコントロールに利用する場合には、辞書に大量の単語、形態素が登録されているため、「はい、チーズ」とそれ以外の音声も区別して認識することができる。従って「はい、チーズ」のみに反応して動作するコマンドコントロールは可能である。しかしながら、大語彙音声認識では、高速で動作するCPUあるいはDSPを必要とし、数十MByte以上の単位のメモリが必要になってくるためコンパクトな機器に搭載することは困難である。 When a method using a large vocabulary speech recognition system using a conventional HMM (Hidden Markov Model) is used for such command control, a large number of words and morphemes are registered in the dictionary. Yes, cheese "and other voices can be distinguished and recognized. Therefore, command control that operates only in response to “yes, cheese” is possible. However, large vocabulary speech recognition requires a CPU or DSP that operates at high speed and requires a memory of units of several tens of megabytes or more, so that it is difficult to mount in a compact device.
ここで、従来のHMMを使い数語のみを辞書に登録しておく方法の問題点について図面を参照しつつ説明する。図14は、従来のコマンドコントロールシステムの一例を示す図である。このシステムには予め音響モデル221と辞書(コマンドリスト)222が与えられている。なお、辞書はユーザ自身が作成することもできる。図14に示すコマンドコントロールシステムにおいて、音響モデルとは、各音素の音響的な特徴を表したモデルであるHMM(隠れマルコフモデル)が用いられる。日本語のモノフォンの音響モデルの場合には、「a」,「i」,「u」,「e」,「o」の母音に加え、「p」,「t」,「s」といった子音も加え約40個程度の音素を用いる。辞書には、ユーザが何と言ったときにどのような動作に対応させるかを記載しておく。例えば、図15に示すように、1列目に動作、2列目にそれに対応する発音(音素記号列)を記述しておく。
Here, problems of a method of registering only a few words in a dictionary using a conventional HMM will be described with reference to the drawings. FIG. 14 is a diagram illustrating an example of a conventional command control system. In this system, an
認識エンジン部211は、辞書、音響モデルから、例えば「はいチーズ」という音声に対応する音の標準的なモデルつまりコマンドの音響モデルW1を内部に構築する。同様に「フラッシュ」についても音響モデルW2を構築する。また、認識エンジン部211は、人が発話した音声を分析して、音響モデルと同じ表現の特徴パラメータの時系列Xに変換し、音響モデルW1から音声Xが出現する確率P(X|W1)を前向きアルゴリズム等を用いて算出する。同様にP(X|W2)も求めることができる。(P(X|W)はWという単語を発話しようとしたときにXという音が発話される確率と言い換えることができる)。
The
発話した音声XがW1であるのか、それともW2であるのかを判定するには事後確率P(W1|X)P(W2|X)を比較しなければならない。そこで一般的な音声認識システムにおいては、ベイズの定理を用いて、P(W|X)=P(W)P(X|W)/P(X)としてP(X)はある音声については一定であるのでP(W|X)∝P(W)P(X|W)とみなしてP(X|W)を比較することでどちらの単語である確率が高いと相対的に判断する。
しかしながら、この方法では、P(W|X)は絶対的な確率値ではないために、辞書に含まれていない単語であるかどうかは判定することができない。
To determine whether the spoken speech X is W1 or W2, the posterior probabilities P (W1 | X) P (W2 | X) must be compared. Thus, in a general speech recognition system, P (W | X) = P (W) P (X | W) / P (X) where P (X) is constant for a certain speech using Bayes' theorem. Therefore, it is regarded as P (W | X) ∝P (W) P (X | W), and by comparing P (X | W), it is relatively determined that the probability of which word is high.
However, in this method, since P (W | X) is not an absolute probability value, it cannot be determined whether or not the word is not included in the dictionary.
本発明は、音声を用いたコマンドコントロールシステムにおいて、コマンドと関係のない音声による誤動作を軽減することのできる技術を提供することを目的とする。 SUMMARY OF THE INVENTION An object of the present invention is to provide a technique capable of reducing malfunctions caused by voices unrelated to commands in a command control system using voices.
上記課題を解決するために、本発明は、1又は複数の音節に対応する表記で構成されたコマンド音節の音節と音素とを対応付けて記憶する記憶手段と、入力されたコマンド音節に含まれる音節に対応する音素を前記記憶手段から選択して、音素の列で構成されたコマンド音素列を生成するコマンド音素列生成手段と、前記コマンド音素列生成手段によって生成されたコマンド音素列に含まれる複数の母音を異なる母音に置き換えたダミーコマンド音素列を生成するダミーコマンド音素列生成手段と、音声信号が入力される音声信号入力手段と、前記音声信号入力手段に入力された音声信号を解析し、解析結果と前記コマンド音素列との類似度及び該解析結果と前記ダミーコマンド音素列との類似度に応じて、コマンドの認識処理を行うコマンド認識手段とを具備することを特徴とするコマンド認識装置を提供する。 In order to solve the above-mentioned problems, the present invention is included in a storage unit that stores a syllable of a command syllable and a phoneme that are configured by notation corresponding to one or a plurality of syllables, and an input command syllable. A command phoneme string generation unit that selects a phoneme corresponding to a syllable from the storage unit and generates a command phoneme string composed of a phoneme string, and is included in the command phoneme string generated by the command phoneme string generation unit Dummy command phoneme string generating means for generating a dummy command phoneme string in which a plurality of vowels are replaced with different vowels, voice signal input means for inputting a voice signal, and analyzing the voice signal input to the voice signal input means A command for performing a command recognition process according to the similarity between the analysis result and the command phoneme sequence and the similarity between the analysis result and the dummy command phoneme sequence. Providing a command recognition apparatus characterized by comprising a recognition means.
本発明によれば、音声を用いたコマンドコントロールシステムにおいて、コマンドと関係のない音声による誤動作を軽減することができる。 ADVANTAGE OF THE INVENTION According to this invention, in the command control system using an audio | voice, the malfunctioning by the audio | voice unrelated to a command can be reduced.
<A:構成>
図1は、この発明の一実施形態である撮影装置1のハードウェア構成の一例を示すブロック図である。撮影装置1は、静止画像や動画像を撮影する機能を備えた装置であり、例えばデジタルカメラである。図1において、制御部11は、CPU(Central Processing Unit)やROM(Read Only Memory)、RAM(Random Access Memory)を備え、ROM又は記憶部12に記憶されているコンピュータプログラムを読み出して実行することにより、バスBUSを介して撮影装置1の各部を制御する。記憶部12は、制御部11によって実行されるコンピュータプログラムやその実行時に使用されるデータを記憶するための記憶手段であり、例えばハードディスク装置である。表示部13は、液晶パネル等を備え、制御部11による制御の下に各種の画像を表示する。操作部14は、撮影装置1の利用者による操作に応じた信号を制御部11に出力する。操作部14は、十字キー(図示略)や、録音を開始・終了させるためのボタン(図示略)、静止画像の撮影及び動画像の撮影を開始・終了させるためのボタン(図示略)等の各種のボタンを備えており、撮影装置1の利用者は、これらのボタンを押下することで、録音や撮影等を行うことができる。なお、静止画の撮影と動画像の撮影との切替は、撮影装置1に設けられた切替スイッチ(図示略)によって切り替えられるようになっている。撮影部18は、撮影用レンズ等を備え、撮影し、撮影した映像を表す映像データを出力する。なお、本実施形態に係る映像データは、静止画像を表すデータや動画像を表すデータを含む。
<A: Configuration>
FIG. 1 is a block diagram showing an example of a hardware configuration of a photographing
マイクロホン15は、収音し、収音した音声を表すアナログ信号を出力する収音手段である。音声処理部16は、マイクロホン15が出力するアナログ信号をA/D変換してデジタルデータを生成する。また、音声処理部16は、制御部11の制御の下、デジタル形式の音声データをD/A変換してアナログ信号を生成し、生成した音声信号をスピーカ17に出力する。スピーカ17は、音声処理部16から供給されるアナログ信号に応じた強度で放音する放音手段である。
The
なお、この実施形態では、マイクロホン15とスピーカ17とが撮影装置1に含まれている場合について説明するが、音声処理部16に入力端子及び出力端子を設け、オーディオケーブルを介してその入力端子に外部マイクロホンを接続するとしても良く、同様に、オーディオケーブルを介してその出力端子に外部スピーカを接続するとしても良い。また、この実施形態では、マイクロホン15から音声処理部16へ入力される音声信号及び音声処理部16からスピーカ17へ出力される音声信号がアナログ音声信号である場合について説明するが、デジタル音声データを入出力するようにしても良い。このような場合には、音声処理部16にてA/D変換やD/A変換を行う必要はない。表示部13、操作部14、撮影部18についても同様であり、撮影装置1に内蔵される形式であってもよく、外付けされる形式であってもよい。
In this embodiment, the case where the
記憶部12は、図示のように、音響モデルデータベースDB1記憶領域121と、コマンド音素列テーブルTBL1記憶領域122と、ダミーコマンド音素列テーブルTBL2記憶領域123と、音素辞書記憶領域124とを有している。音響モデルデータベースDB1記憶領域121には、各音素の音響的な特徴を表したモデルであるHMM(隠れマルコフモデル)が記憶されている。この実施形態では、日本語のモノフォンの音響モデルとして、「a」,「i」,「u」,「e」,「o」の母音に加え、「p」,「t」,「s」といった子音も加え約40個程度の音素の特徴を表すデータ(以下「音素特徴データ」という)が記憶されている。
As illustrated, the
コマンド音素列テーブルTBL1記憶領域122には、ユーザが何と言ったときにどのような動作に対応させるかを示すデータが記憶される。図2は、コマンド音素列テーブルTBL1記憶領域122の記憶内容の一例を示す図である。図示のように、この記憶領域には、「動作内容」と「音素記号列」との各項目が互いに関連付けて記憶される。「動作内容」の項目には、「シャッターを切る」、「フラッシュをつける」といったような、撮影装置1が行う動作の内容を表すデータが記憶されている。「音素記号列」の項目には、各動作に対応する音声コマンドの音素記号列を表すデータ(以下「コマンド音素列」という)が記憶される。
The command phoneme sequence table
ダミーコマンド音素列テーブルTBL2記憶領域123には、撮影装置1の制御部11が後述するダミーコマンド生成処理を実行することによって生成されるダミーコマンドが記憶される。なお、この記憶領域に記憶されるダミーコマンドについては後述することとし、ここではその詳細な説明を省略する。音素辞書記憶領域124には、音節と音素とが対応付けて記憶されている。
In the dummy command phoneme string table
次に、撮影装置1の機能的構成の一例について図面を参照しつつ説明する。図3は、撮影装置1の機能的構成の一例を示す図である。図において、認識エンジン部111、コマンド判定部112、コマンド実行部113及びダミーコマンド生成部114は、撮影装置1の制御部11がROM又は記憶部12に記憶されたコンピュータプログラムを読み出して実行することによって実現される。なお、図中の矢印は、データの流れを概略的に示すものである。
Next, an example of a functional configuration of the photographing
認識エンジン部111には、マイクロホン15によって収音された音声を表す音声信号が入力される。認識エンジン部111は、入力された音声信号を解析し、解析結果とコマンド音素列テーブルTBL1記憶領域122に記憶されたコマンド音素列との類似度及び解析結果とダミーコマンド音素列テーブルTBL2記憶領域123に記憶されたダミーコマンド音素列との類似度に応じて、コマンドの認識処理を実行する。より具体的には、まず、認識エンジン部111は、入力された音声信号から音声の特徴を抽出し、抽出した特徴を表すデータ(以下「音響モデル」という)を生成する。具体的には、例えば、認識エンジン部111は、辞書、音響モデルから「はいチーズ」という音声に対応する音の標準的なモデル、すなわちコマンドの音響モデルW1を内部に構築する。同様に「フラッシュ」についても音響モデルW2を構築する。
The
また、認識エンジン部111は、マイクロホン15によって収音された音声から音声の特徴を抽出し、抽出した特徴を、音響モデルと同じ表現の特徴パラメータの時系列Xに変換する。この実施形態では、音響モデルの特徴パラメータとして、MFCC(Mel-Frequency Cepstrum Coefficient)の26次元パラメータを用いる。更に、認識エンジン部111は、音響モデルW1から音声Xが出現する確率P(X|W1)を、前向きアルゴリズム等を用いて算出する。同様に、認識エンジン部111は、音響モデルW2から音声Xが出現する確率P(X|W2)を、前向きアルゴリズム等を用いて算出する。なお、P(X|W)は、Wという単語を発話しようとしたときにXという語が発話される確率と言い換えることができる。
The
認識エンジン部111は、下記の(1)式にしたがって事後確率を求める。
P(Wi|X)=P(Wi)P(X|Wi)/ΣjP(X|Wj) …(1)
The
P (W i | X) = P (W i ) P (X | W i ) / Σ j P (X | W j ) (1)
コマンド判定部112は、認識エンジン部111の解析結果に基づいて、コマンドを受理するか棄却するかを判定する。コマンド判定部112は、コマンドを受理すると判定した場合には、受理したコマンドをコマンド実行部113へ通知する。コマンド実行部113はコマンド判定部112から通知されるコマンドに従って各種の処理を実行する。
The
この実施形態では、コマンド判定部112は、認識エンジン部111によって算出されたP(Wi|X)の最大値Max(P(Wi|X))が予め定められた閾値より大きく、かつ、最大となるWiがダミーコマンドでない場合は、このコマンドを受理する一方、それ以外なら棄却する。
In this embodiment, the
この方式ではP(Wi|X)は0〜1の値をとるので、どのようなコマンドであるかによらず一定の閾値を用いて判定を行うことができる。しかしながら、ここでΣjP(X|Wj)はXという音声を観測する確率P(X)であり、ある言語でありえるすべての単語Wjについて和を求めないと正確な値を得られない。とはいえ、「はえチーズ」と言おうとしたときに「ハイチーズ」と似た発音になるのは考えられるが、「はいちーず」というコマンドとまったくかけ離れた「朝」と言おうとしたときに「はいちーず」に似た発音になることはほとんどゼロに近いはずである。そこで本実施形態では、認識したいコマンドに加えて、そのコマンドの音声に近いダミーコマンドのみを追加しておくことで近似的に精度の高いP(X)を得ようというものである。 In this method, since P (W i | X) takes a value of 0 to 1, it is possible to make a determination using a certain threshold value regardless of the command. However, here, Σ j P (X | W j ) is the probability P (X) of observing the speech X, and an accurate value cannot be obtained unless the sum is obtained for all words Wj that can be in a certain language. Nonetheless, when trying to say “Hay cheese”, it might be pronounced like “high cheese”, but trying to say “morning”, which is quite different from the command “haichizu” Occasionally, the pronunciation is similar to “Haichizu” and should be almost zero. Therefore, in this embodiment, in addition to a command to be recognized, only dummy commands close to the voice of the command are added to obtain P (X) with approximately high accuracy.
ダミーコマンド生成部114は、コマンド音素列テーブルに登録されたコマンド音素列と所定の類似度を有するダミーコマンド音素列を、予め定められたアルゴリズムに従って生成する。この実施形態では、ダミーコマンド生成部114は、以下の(i)乃至(iv)の基準で、コマンド音素列テーブルTBL1記憶領域122に記憶されたコマンドからダミーコマンド音素列を生成する。
(i)コマンドに含まれる母音のそれぞれをa,i,u,e,oのいずれかに置き換える。
(ii)ただし置き換える母音の個数は2個以上、4個以下とする。
(iii)ただしもとのコマンドとの違いが1音素だけの場合には追加しない。
(iv)子音を取り除いたダミーコマンド音素列を生成する。
The dummy
(I) Replace each vowel included in the command with one of a, i, u, e, and o.
(Ii) However, the number of vowels to be replaced is 2 or more and 4 or less.
(Iii) However, it is not added when the difference from the original command is only one phoneme.
(Iv) Generate a dummy command phoneme string from which consonants are removed.
すなわち、(i)の生成基準に従って、ダミーコマンド生成部114は、コマンド音素列に含まれる母音を予め定められた母音に置き換えたものをダミーコマンド音素列として生成する。更に、ダミーコマンド生成部114は、(iii)の生成基準に従って、コマンド音素列に含まれる母音を予め定められた母音に置き換えた場合に、そのコマンド音素列との音素の差分が1音素のみである音素列についてはダミーコマンドとして採用しない。
That is, according to the generation criterion (i), the dummy
ここで、ダミーコマンド音素列(以下、単に「ダミーコマンド」という)の具体的な内容の一例について、図4を参照しつつ説明する。図4は、ダミーコマンド生成部114が生成するダミーコマンドの一例を示す図である。ダミーコマンド生成部114は、「シャッターを切る」というコマンドについては、図4に示すような6個のダミーコマンドを生成する。また、ダミーコマンド生成部114は、「フラッシュ」というコマンドに対しては、図4に示すように5個のダミーコマンドを生成する。図4に示すように、「フラッシュ」というコマンドに対しては、「furushu」というダミーコマンドは生成されない(上述の(iii)の生成基準参照)。
Here, an example of specific contents of a dummy command phoneme string (hereinafter simply referred to as “dummy command”) will be described with reference to FIG. FIG. 4 is a diagram illustrating an example of a dummy command generated by the dummy
ダミーコマンドの追加により確率P(X)の精度が上がり、本来のコマンドに似た単語を発話したときには、ほぼ理想に近い確率P(X)が得られる。確率P(W|X)は0から1に正規化された値となるため、一定の閾値を用いてコマンドか否かを判定することが可能になる。これを模式的に表したのが図5及び図6である。図5は、「はいチーズ」というコマンドWと「フラッシュ」というコマンドWの特徴パラメータと確率P(X|W)の対応関係の一例を示す図である。また、図6は、音声の特徴パラメータと確率P(W|X)の対応関係の一例を示す図である。なお、図5及び図6では、説明を容易にするため、音声の特徴パラメータを1次元のパラメータとして図示している。 The accuracy of the probability P (X) is increased by adding a dummy command, and when a word similar to the original command is uttered, a probability P (X) that is almost ideal is obtained. Since the probability P (W | X) is a value normalized from 0 to 1, it is possible to determine whether or not it is a command using a certain threshold value. This is schematically shown in FIG. 5 and FIG. FIG. 5 is a diagram illustrating an example of a correspondence relationship between the characteristic parameter of the command W “yes cheese” and the command W “flash” and the probability P (X | W). FIG. 6 is a diagram illustrating an example of a correspondence relationship between a speech feature parameter and a probability P (W | X). In FIG. 5 and FIG. 6, for ease of explanation, the voice feature parameter is illustrated as a one-dimensional parameter.
また、ダミーコマンド生成部114によって生成されたダミーコマンドを用いて認識エンジン部111が行う確率の算出処理の具体的な一例について、図7乃至図9を参照しつつ説明する。図7は、「はいチーズ」というコマンドと「はいチーズ」のコマンドのダミーコマンドとして生成された「ほおちょーぞ」というダミーコマンドの音声の特徴パラメータと確率P(X|W)との対応関係の一例を示す図である。
A specific example of the probability calculation process performed by the
図7において、例えば、「はいどーぞ」というような、コマンドにはない中間的な発話をした場合に、P(X|haichi:zu)=0.03,P(X|hoocho:zo)=0.02でその他は無視してよい程度に小さい確率だったとする。このときP(haichi:zu|X)=0.02/(0.03+0.02)=0.6で、P(hoocho:zo|X)=0.02/(0.03+0.02)=0.4となる。このとき閾値が予め0.8という値が設定されていたとすると、P(haichi:zu|X)は0.8以下であるのでコマンドとして受け付けずに棄却するという動作をすることになる(図7参照)。 In FIG. 7, for example, P (X | haichi: zu) = 0.03, P (X | hocho: zo) = 0 when an intermediate utterance that is not included in the command, such as “Haido” .02 and the others are small enough to be ignored. At this time, P (haichi: zu | X) = 0.02 / (0.03 + 0.02) = 0.6 and P (hocho: zo | X) = 0.02 / (0.03 + 0.02) = 0 .4. If a threshold value of 0.8 is set in advance at this time, P (haichi: zu | X) is 0.8 or less, and therefore, an operation of rejecting without accepting as a command is performed (FIG. 7). reference).
本実施形態においては、どのようなダミーコマンドを登録しておくかが重要である。あまりにも本来のコマンドに似たダミーコマンドがあると少し不明瞭な発音をしただけで同程度の確率となるダミーコマンドが増えて、却下される割合が増えてしまう。これはコマンドコントロールを用いるユーザにとっては非常に不便である。逆に、本来のコマンドに似たダミーコマンドがないと、コマンドを発話したつもりでなくても似た言葉に反応して誤動作することになってしまう。図8は、「はいチーズ」のダミーコマンドである「ほおちょーぞ」と「はあちゃーざ」の音声の特徴パラメータと確率P(W|X)の対応関係を示す図である。また、図9は、ダミーコマンドとして「ほおちょーぞ」と「はあチーズ」とを用いる場合の音声の特徴パラメータと確率P(W|X)の対応関係の一例を示す図である。図9に示すように、本来のコマンドに似すぎているダミーコマンドを用いると、少し不明瞭な発音をしただけで却下される割合が高くなってしまう。それに対し、本実施形態では、ダミーコマンド生成部114が、元のコマンドとの違いが1音素だけの場合にはダミーコマンドとして追加しないことにより、本来のコマンドに似すぎているダミーコマンドが登録されるのを防ぎ、これにより、誤動作を軽減することができる。
In the present embodiment, what kind of dummy command is registered is important. If there is a dummy command that is too similar to the original command, there will be an increase in the number of rejected dummy commands that will have the same probability with a slightly unclear pronunciation. This is very inconvenient for users using command control. On the other hand, if there is no dummy command similar to the original command, even if you do not intend to speak the command, it will malfunction in response to similar words. FIG. 8 is a diagram showing a correspondence relationship between the voice feature parameters and the probabilities P (W | X) of “hochozo” and “haachaza” which are dummy commands of “yes cheese”. FIG. 9 is a diagram illustrating an example of a correspondence relationship between a speech feature parameter and a probability P (W | X) when “hochozo” and “ha cheese” are used as dummy commands. As shown in FIG. 9, if a dummy command that is too similar to the original command is used, the rate of rejection will increase even with a slightly unclear pronunciation. On the other hand, in this embodiment, the
<B:動作>
<B−1:コマンド登録動作>
次に、撮影装置1の動作について説明する。まず、コマンドの登録動作について説明する。まず、ユーザは、操作部14を操作してコマンドを登録するための操作を行う。より具体的には、ユーザは、操作部14を操作してコマンドの文字列を表すテキストデータを入力する。制御部11は、操作部14からの信号に応じて、入力されたテキストデータ(コマンド音節)を取得する。すなわち、制御部11には、1又は複数の音節に対応する表記で構成されたコマンド音節が入力される。制御部11は、入力されたコマンド音節に対応する音素を音素辞書記憶領域124に記憶された音素辞書を参照して選択し、音素の列で構成されたコマンド音素列を生成する。制御部11は、生成したコマンド音素列をコマンド音素列テーブルTBL1記憶領域122に記憶する。
<B: Operation>
<B-1: Command registration operation>
Next, the operation of the photographing
コマンドをコマンド音素列テーブルに登録すると、次いで、制御部11は、入力されたコマンドからダミーコマンドを生成し、生成したダミーコマンドをダミーコマンド音素列テーブルTBL2記憶領域123に記憶する。例えば、「はいチーズ」というコマンドが入力された場合には、図4に示すような6個のダミーコマンドが生成される。
When the command is registered in the command phoneme sequence table, the
<B−2:コマンド認識動作>
次に、撮影装置1がコマンドを認識する動作について説明する。制御部11は、音声が入力されるまで待機し、音声が入力されると、入力された音声を解析し、解析結果とコマンド音素列との類似度及び解析結果とダミーコマンド音素列との類似度に応じて、コマンドが入力されたか否かを判定する。コマンドが入力されたと判定された場合には、制御部11は、入力されたコマンドに対応する処理を実行する。具体的には、例えば、「はいチーズ」という音声コマンドが入力された場合には、制御部11は、入力された音声コマンドに応じて、静止画像を撮影する処理を実行する。また、例えば、「フラッシュ」という音声コマンドが入力された場合には、制御部11は、入力された音声コマンドに応じて、フラッシュを点灯(又は消灯)する処理を実行する。
<B-2: Command recognition operation>
Next, an operation in which the photographing
<C:実施形態の効果>
以上説明したように本実施形態によれば、音声を用いたコマンドコントロールシステムにおいて、登録されたコマンドの音素列に類似するダミーコマンドを生成し、生成したダミーコマンドを用いてコマンド認識処理を実行することにより、コマンドと関係のない音声による誤動作を軽減する。このように、認識させたいコマンドの音声に適度に似せた音声をダミーとしてコマンドリストに登録しておくことにより、本来のコマンド以外の音声が入力されたときにコマンドとして認識されないようにし、誤動作を軽減することができる。
また、本実施形態によれば、大語彙の辞書を用いる手法に対して、メモリの消費量を少なくすることができるとともに、CPUの負荷も軽減することができる。
<C: Effect of the embodiment>
As described above, according to the present embodiment, in the command control system using voice, a dummy command similar to the phoneme string of the registered command is generated, and the command recognition process is executed using the generated dummy command. This reduces the malfunction caused by voice that is not related to the command. In this way, by registering in the command list as a dummy a sound that is reasonably similar to the sound of the command that you want to recognize, so that it will not be recognized as a command when a sound other than the original command is input, causing malfunctions. it can be reduced.
Further, according to the present embodiment, the memory consumption can be reduced and the load on the CPU can be reduced as compared with the method using the large vocabulary dictionary.
また、本実施形態によれば、ダミーコマンドを追加することによりP(X)の精度が上がり、本来のコマンドに似た言葉を発話したときには、ほぼ理想に近いP(X)を得ることができる。P(W|X)は0から1に正規化された値となるため、一定の閾値を使ってコマンドか否かを判定することが可能になる(図5及び図6参照)。 Further, according to the present embodiment, by adding a dummy command, the accuracy of P (X) is improved, and when a word similar to the original command is spoken, it is possible to obtain P (X) that is almost ideal. . Since P (W | X) is a value normalized from 0 to 1, it is possible to determine whether or not the command is performed using a certain threshold (see FIGS. 5 and 6).
<D:変形例>
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。なお、以下の各態様を適宜に組み合わせてもよい。
(1)上述の実施形態では、本発明に係るコマンド認識装置をデジタルカメラ等の撮影装置に適用した例について説明したが、本発明に係るコマンド認識装置が適用される装置はデジタルカメラに限らず、例えば、パーソナルコンピュータ、携帯電話端末、コンピュータゲーム機等であってもよく、本発明に係るコマンド認識装置は様々な装置に適用可能である。また、本発明に係るコマンド認識装置が、撮影装置等の他の装置に外部接続される構成であってもよい。この場合は、コマンド認識装置が認識したコマンドを、外部I/Fを介して他の装置に通知するようにすればよい。
<D: Modification>
As mentioned above, although embodiment of this invention was described, this invention is not limited to embodiment mentioned above, It can implement with another various form. An example is shown below. In addition, you may combine each following aspect suitably.
(1) In the above-described embodiment, an example in which the command recognition apparatus according to the present invention is applied to a photographing apparatus such as a digital camera has been described. However, an apparatus to which the command recognition apparatus according to the present invention is applied is not limited to a digital camera. For example, it may be a personal computer, a mobile phone terminal, a computer game machine, or the like, and the command recognition device according to the present invention can be applied to various devices. The command recognition apparatus according to the present invention may be externally connected to another apparatus such as a photographing apparatus. In this case, the command recognized by the command recognition device may be notified to another device via the external I / F.
(2)上述の実施形態では、制御部11が、上述した(i)乃至(iv)の生成基準に従ってダミーコマンド音素列を生成したが、制御部11がダミーコマンド音素列を生成する態様はこれに限らず、他の態様であってもよい。例えば、制御部11が、上述した(i)、(ii)、(iv)の生成基準に従ってダミーコマンド音素列を生成するようにしてもよい。要は、制御部11が、コマンド音素列と所定の類似度を有するダミーコマンド音素列を、予め定められたアルゴリズムに従って生成するようにすればよい。
(2) In the above-described embodiment, the
(3)上述の実施形態では、日本語のコマンドを認識する場合について説明したが、これに限らず、他の言語のコマンドを認識する装置においても本発明は適用可能である。ここで、英語のコマンドを認識する場合の具体的な内容の一例について説明する。英語の場合は、母音数が、長母音や二重母音もあわせると24個以上もあるため、全てを置き換えた語をダミーコマンドとして登録すると無駄が多くなってしまう。そこで、この態様においては、音的に近い母音だけを用いることとする。ここで、”yes we can”と”say cheese”の場合の例について以下に説明する。”yes we can”の場合、コマンド音素列は「jeswi:k{n」となる。なお、この音素列を表す発音記号はSAMPA(Speech Assessment Methods Phonetic Alphabet)に準拠している。 (3) In the above-described embodiment, the case where a Japanese command is recognized has been described. Here, an example of specific contents when an English command is recognized will be described. In the case of English, the number of vowels is 24 or more when long vowels and double vowels are combined. Therefore, it is wasteful to register words in which all vowels are replaced as dummy commands. Therefore, in this aspect, only vowels that are close in sound are used. Here, an example in the case of “yes we can” and “say cheese” will be described below. In the case of “yes we can”, the command phoneme string is “jewi: k {n”. Note that the phonetic symbols representing the phoneme strings conform to SAMPA (Speech Assessment Methods Phonetic Alphabet).
この例では、音韻的距離を考慮して各母音あたり4〜5母音程度のテーブルを予め用意しておく。この例では、例えば、図10に示すような置換テーブルを撮影装置1の記憶部12に予め記憶しておく。制御部11は、この置換テーブルを参照してコマンド音素列の母音部分を順に書き換え、図11に示すようなダミーコマンド音素列を生成する。なお、図11に示す例においては、ダミーコマンド音素列の数が多くなるため組み合わせは考えないものとしている。
In this example, a table of about 4 to 5 vowels is prepared in advance for each vowel considering the phonological distance. In this example, for example, a replacement table as shown in FIG. 10 is stored in advance in the
次に、“say cheese”のコマンドについて説明する。このコマンドのコマンド音素列は「seIchi:z」となる。この例でも、上述のコマンドと同様に、音韻的距離を考慮した置換テーブルを予め用意しておく。例えば、図12に示すような置換テーブルを撮影装置1の記憶部12に予め記憶しておく。制御部11は、この置換テーブルを参照してコマンド音素列の母音部分を順に書き換え、図13に示すようなダミーコマンド音素列を生成する。この場合も、上述した実施形態と同様に、制御部11は、コマンド音素列と生成したダミーコマンド音素列とを用いてコマンドの認識処理を実行する。
Next, the “say cheese” command will be described. The command phoneme string of this command is “seIchi: z”. In this example as well, a replacement table taking into account the phonological distance is prepared in advance as in the above-described command. For example, a replacement table as shown in FIG. 12 is stored in advance in the
(4)上述の実施形態では、制御部11に入力されるコマンド音素列として、コマンドの文字列を表すテキストデータが入力されるようにしたが、入力されるコマンド音素列はテキストデータに限らず、例えば、発音記号を表すデータがコマンド音素列として入力されるようにしてもよい。要は、制御部11に、1又は複数の音節に対応する表記で構成されたコマンド音節が入力されるものであればよい。
(4) In the above-described embodiment, text data representing a command character string is input as a command phoneme string input to the
(5)上述の実施形態における撮影装置1の制御部11によって実行されるプログラムは、磁気記録媒体(磁気テープ、磁気ディスクなど)、光記録媒体(光ディスクなど)、光磁気記録媒体、半導体メモリなどのコンピュータが読取可能な記録媒体に記憶した状態で提供し得る。また、インターネットのようなネットワーク経由で撮影装置1にダウンロードさせることも可能である。なお、このような制御を行う制御手段としてはCPU以外にも種々の装置を適用することができ、例えば、専用のプロセッサなどを用いてもよい。
(5) The program executed by the
1…撮影装置、11…制御部、12…記憶部、13…表示部、14…操作部、15…マイクロホン、16…音声処理部、17…スピーカ、18…撮影部、111…認識エンジン部、112…コマンド判定部、113…コマンド実行部、114…ダミーコマンド生成部、121…音響モデルデータベースDB1記憶領域、122…コマンド音素列テーブルTBL1記憶領域、123…ダミーコマンド音素列テーブルTBL2記憶領域、124…音素辞書記憶領域。
DESCRIPTION OF
Claims (1)
入力されたコマンド音節に含まれる音節に対応する音素を前記記憶手段から選択して、音素の列で構成されたコマンド音素列を生成するコマンド音素列生成手段と、
前記コマンド音素列生成手段によって生成されたコマンド音素列に含まれる複数の母音を異なる母音に置き換えたダミーコマンド音素列を生成するダミーコマンド音素列生成手段と、
音声信号が入力される音声信号入力手段と、
前記音声信号入力手段に入力された音声信号を解析し、解析結果と前記コマンド音素列との類似度及び該解析結果と前記ダミーコマンド音素列との類似度に応じて、コマンドの認識処理を行うコマンド認識手段と
を具備することを特徴とするコマンド認識装置。 Storage means for storing a syllable and a phoneme of a command syllable configured in a notation corresponding to one or a plurality of syllables;
Command phoneme string generation means for selecting a phoneme corresponding to a syllable included in the input command syllable from the storage means and generating a command phoneme string composed of a phoneme string;
Dummy command phoneme string generation means for generating a dummy command phoneme string by replacing a plurality of vowels included in the command phoneme string generated by the command phoneme string generation means with different vowels ;
An audio signal input means for inputting an audio signal;
The voice signal input to the voice signal input means is analyzed, and a command recognition process is performed according to the similarity between the analysis result and the command phoneme string and the similarity between the analysis result and the dummy command phoneme string. And a command recognition device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009076789A JP5476760B2 (en) | 2009-03-26 | 2009-03-26 | Command recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009076789A JP5476760B2 (en) | 2009-03-26 | 2009-03-26 | Command recognition device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010230852A JP2010230852A (en) | 2010-10-14 |
JP5476760B2 true JP5476760B2 (en) | 2014-04-23 |
Family
ID=43046758
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009076789A Expired - Fee Related JP5476760B2 (en) | 2009-03-26 | 2009-03-26 | Command recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5476760B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6791356B2 (en) * | 2017-03-24 | 2020-11-25 | ヤマハ株式会社 | Control method of voice terminal, voice command generation system, and voice command generation system |
JP6784859B1 (en) * | 2020-03-02 | 2020-11-11 | 菱洋エレクトロ株式会社 | Voice recognition system and voice recognition device |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09244691A (en) * | 1996-03-07 | 1997-09-19 | Nippon Telegr & Teleph Corp <Ntt> | Input speech rejecting method and device for executing same method |
JP2001147698A (en) * | 1999-11-22 | 2001-05-29 | Hitachi Ltd | Method of generating pseudo word for voice recognition and voice recognition device |
JP2005092310A (en) * | 2003-09-12 | 2005-04-07 | Kddi Corp | Voice keyword recognizing device |
JP2005292346A (en) * | 2004-03-31 | 2005-10-20 | Nec Corp | Rejection dictionary generating system for voice recognition, rejection vocabulary generating method for voice recognition, and vocabulary generating program for voice recognition |
JP4539313B2 (en) * | 2004-12-01 | 2010-09-08 | 日本電気株式会社 | Speech recognition dictionary creation system, speech recognition dictionary creation method, speech recognition system, and robot |
-
2009
- 2009-03-26 JP JP2009076789A patent/JP5476760B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010230852A (en) | 2010-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11496582B2 (en) | Generation of automated message responses | |
US20240013771A1 (en) | Translation method and system using multilingual text-to-speech synthesis model | |
US10347244B2 (en) | Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response | |
US9640175B2 (en) | Pronunciation learning from user correction | |
KR100742888B1 (en) | Speech recognition method | |
Aggarwal et al. | Acoustic modeling problem for automatic speech recognition system: conventional methods (Part I) | |
JP5200712B2 (en) | Speech recognition apparatus, speech recognition method, and computer program | |
CN110706714B (en) | Speaker model making system | |
JP2001215993A (en) | Device and method for interactive processing and recording medium | |
JP2017513047A (en) | Pronunciation prediction in speech recognition. | |
JPWO2009078256A1 (en) | Pronunciation variation rule extraction device, pronunciation variation rule extraction method, and pronunciation variation rule extraction program | |
JPH096390A (en) | Voice recognition interactive processing method and processor therefor | |
JP2018013549A (en) | Speech content recognition device | |
US20230298564A1 (en) | Speech synthesis method and apparatus, device, and storage medium | |
JP2005227686A (en) | Speech recognizer, speech recognition program and recording medium | |
JP2001188779A (en) | Device and method for processing information and recording medium | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
JP5476760B2 (en) | Command recognition device | |
Manjunath et al. | Development of phonetic engine for Indian languages: Bengali and Oriya | |
US20230148275A1 (en) | Speech synthesis device and speech synthesis method | |
JP2010204442A (en) | Speech recognition device, speech recognition method, speech recognition program and program recording medium | |
JP2011039468A (en) | Word searching device using speech recognition in electronic dictionary, and method of the same | |
JP2002372988A (en) | Recognition dictionary preparing device and rejection dictionary and rejection dictionary generating method | |
JP4877112B2 (en) | Voice processing apparatus and program | |
KR102458830B1 (en) | User-oriented voice dialogue system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120120 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130108 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130308 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130723 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131017 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20131025 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140127 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5476760 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |