JP2001236087A - 音声認識方法および音声認識装置ならびに音声認識処理プログラムを記録した記録媒体 - Google Patents

音声認識方法および音声認識装置ならびに音声認識処理プログラムを記録した記録媒体

Info

Publication number
JP2001236087A
JP2001236087A JP2000043345A JP2000043345A JP2001236087A JP 2001236087 A JP2001236087 A JP 2001236087A JP 2000043345 A JP2000043345 A JP 2000043345A JP 2000043345 A JP2000043345 A JP 2000043345A JP 2001236087 A JP2001236087 A JP 2001236087A
Authority
JP
Japan
Prior art keywords
voice command
voice
time
standard model
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000043345A
Other languages
English (en)
Inventor
Yasunaga Miyazawa
康永 宮沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2000043345A priority Critical patent/JP2001236087A/ja
Publication of JP2001236087A publication Critical patent/JP2001236087A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

(57)【要約】 【課題】音声コマンドの種類や機器の動作内容に応じて
認識対象とする音声コマンドの長さを設定可能とするこ
とで、音声コマンドの種類や機器の動作内容に応じた応
答の早さを可能とする。 【解決手段】それぞれの音声コマンドに対し、認識対象
とする音声区間長さを個々の音声コマンドごとに設定可
能とするユーザ設定部6と、入力された音声コマンドを
分析して時系列データを出力する音声分析部3と、前記
音声コマンドごとに設定された前記認識対象とする音声
区間長の音声コマンドに対する音素連結モデルを格納し
た標準モデルデータ記憶部8と、音声分析部3から出力
される音声コマンドに対する時系列データが入力される
と、その時系列データと前記各音素連結モデルとを対応
付けて、各音素連結モデルに対する出力を得て、その出
力に基づいて入力音声を認識する音声認識処理部4と、
この音声認識処理部4による認識結果に基づいた制御を
行う動作制御部5とを有する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はユーザの発話した音
声コマンドを認識してその認識結果に基づく動作を行う
機器やテレビジョンゲーム(TVゲームという)などに
おいて、音声コマンドごとに応答時間や認識の確実性な
どをユーザが設定可能とする音声コマンド認識方法およ
び音声認識装置並びに音声コマンド認識処理プログラム
を記録した記録媒体に関する。
【0002】
【従来の技術】ユーザが音声コマンドを発話することに
より、その音声コマンドに応じた動作をなす技術は様々
な分野で使用されている。たとえば、音声コマンドによ
り動作するリモートコントロール自動車(リモコンカー
という)などの玩具を例にとれば、ユーザによって発話
された「進め」、「止まれ」、「右」、「左」といった
予め認識可能として登録された音声コマンドを認識し、
その認識結果に基づいた動作を行う。
【0003】このように音声コマンドによって動作可能
な機器は、単にボタン操作などで動作させるものに比べ
て、操作性のおもしろさなどもあって人気商品となる可
能性が高い。また、音声コマンドにより動作可能とする
ことによって、両手がふさがっていても機器を操作させ
ることができるため、利便性にも優れ、玩具だけではな
く幅広い分野への適用が可能となり、今後、ますます利
用されて行くものと考えられる。
【0004】
【発明が解決しようとする課題】しかし、ユーザの発話
した音声コマンドを認識してその認識結果に基づいた応
答を行わせるとなると、ボタン操作によるものに比べ、
音声認識という処理過程を必要とするため、処理が複雑
となる分だけ応答が遅くなるという問題もある。
【0005】たとえば、前述のリモコンカーを例に取れ
ば、ユーザが「止まれ」や「進め」といった音声コマン
ドを発話すると、その音声を入力して、音声分析して認
識処理し、その認識結果に基づいてそれに対応する動作
を行うといった処理手順が必要となる。
【0006】このような音声認識を行う場合、入力され
た1つ1つの音声コマンドに対し、その音声コマンドを
構成する音声区間の始点から終点までを認識対象区間と
して検出し、その始点から終点までの認識対象区間すべ
てに渡って認識処理するのが普通である。つまり、ユー
ザが音声コマンドを完全に発話し終わらないと音声認識
結果が得られないのが普通であり、ユーザが音声コマン
ドを完全に発話し終わってから、その認識結果に基づい
た動作をなすのが一般的である。このため、コマンドを
与えてから実際の動作をなすまでに多くの時間を要する
ことになる。
【0007】したがって、応答に瞬時性の要求されない
機器であれば大きな問題もないが、瞬時性の要求される
ものには適用しにくいのが実情である。たとえば、TV
ゲームなどの格闘ゲームなどにおいてはユーザの動作に
対して瞬時に応答されないとユーザの意図するゲーム展
開がなされないことになる。
【0008】従来、音声認識をできるだけ短時間で行う
方法として、音声コマンドの語頭部だけを認識して、そ
の語頭部の認識結果からその音声コマンド内容を判断
し、それに対する応答を行うという手法も提案されてい
る。これによれば、確かに認識に要する時間の短縮が図
れ、より早く応答が可能となるが、音声区間全体を認識
対象とする方法と比べると認識性能に問題があり、特
に、認識可能な音声コマンド数が多いと、誤認識の発生
の確率が高くなり、また、同じ語頭部を有する音声コマ
ンドを区別することができないなどの問題もある。
【0009】そこで本発明は、システム側で認識可能な
音声コマンドの種類に応じて応答の早さや認識の確実性
などをユーザが設定可能とすることによって、音声コマ
ンドの種類に応じた応答が可能となり、利便性やエンタ
テイメント性を高めることができるようにすることを目
的としている。
【0010】
【課題を解決するための手段】上述の目的を達成するた
めに本発明の音声認識方法は、それぞれの音声コマンド
に対し、認識対象とする音声コマンドの長さを個々の音
声コマンドごとに設定可能とするとともに、その長さの
設定された音声コマンドに対する標準モデルを生成し、
音声コマンドが入力されると、その音声コマンドを分析
して当該音声コマンドの音声区間の始点を検出し、その
始点から当該音声コマンドに対応する音声区間の分析結
果を時系列データとして出力し、その時系列データと前
記各標準モデルとを対応付けて、各標準モデルごとの出
力を得て、その出力に基づいて入力音声を認識するよう
にしている。
【0011】また、本発明の音声認識装置は、ユーザの
発話した音声コマンドを認識し、その認識結果に基づい
て制御をなす音声認識装置において、それぞれの音声コ
マンドに対し、認識対象とする音声コマンドの長さを個
々の音声コマンドごとに設定可能とするユーザ設定部
と、音声コマンドが入力されると、その音声コマンドを
分析して当該音声コマンドの音声区間の始点を検出し、
その始点から当該音声コマンドに対応する音声区間の分
析結果を時系列データとして出力する音声分析部と、前
記長さの設定された音声コマンドに対する標準モデルを
格納する標準モデルデータ記憶部と、前記音声分析部か
ら出力される音声コマンドに対する時系列データが入力
されると、その時系列データと前記各標準モデルとを対
応付けて、各標準モデルに対する出力を得て、その出力
に基づいて入力音声を認識する音声認識処理部と、この
音声認識処理部による認識結果に基づいた制御を行う動
作制御部とを有する構成としている。
【0012】また、本発明の音声認識処理プログラムを
記録した記録媒体は、ユーザの発話した音声コマンドを
認識する音声認識処理プログラムを記録した記録媒体で
あって、その音声認識処理プログラムは、それぞれの音
声コマンドに対し、認識対象とする音声コマンドの長さ
を個々の音声コマンドごとに設定可能とするとともに、
その長さの設定された音声コマンドに対する標準モデル
を生成して保持しておく。そして、音声コマンドが入力
されると、その音声コマンドを分析して当該音声コマン
ドの音声区間の始点を検出し、その始点から当該音声コ
マンドに対応する音声区間の分析結果を時系列データと
して出力する手順と、その時系列データと前記各標準モ
デルとを対応付けて、各標準モデルごとの出力を得て、
その出力に基づいて入力音声を認識する手順とを含むも
のである。
【0013】これら各発明において、前記前記長さの設
定された個々の音声コマンドに対する標準モデルは、そ
の長さの設定された音声コマンドを構成する音素ごとの
音素モデルを連結してなるものである。
【0014】また、前記標準モデル出力に基づいて入力
音声を認識する処理は、音声コマンドをある時刻ごとに
分析して得られた時系列データを各音声コマンド対応に
用意された標準モデルにそれぞれ与えて、それぞれの標
準モデルに対する時系列の出力尤度データを得て、それ
を時間の長さで正規化し、この時間の長さで正規化され
たそれぞれの標準モデルに対するそれぞれの出力尤度デ
ータを、ある時刻ごとに比較し、その時刻において最大
の尤度を有する出力尤度データを検出し、検出された出
力尤度データがその出力尤度データを出力した標準モデ
ルに対して予め設定されたしきい値を超えたか否かを調
べ、しきい値を超えたことが判定されると、当該標準モ
デルによってその音声コマンドを認識したと判定するよ
うにしている。
【0015】また、前記標準モデルに設定されたしきい
値は、個々の標準モデルごとにユーザによってその大き
さを設定可能としている。
【0016】このように本発明は、それぞれの音声コマ
ンドに対し、認識対象とする音声区間長さを個々の音声
コマンドごとに設定可能としている。すなわち、それぞ
れの音声コマンドに対応する音声区間の始点からどの部
分までを認識対象とするかをユーザが設定可能としてい
る。これによって、コマンドの種類に応じて、認識対象
となるコマンドを語頭部のみとしたりあるいは簡略化し
て短くすることができ、これにより、認識されるまでの
時間の短縮化が図れる。これは、コマンドの種類や機器
の動作内容に応じ、応答性を優先するかあるいは認識性
能を優先するかによってユーザが設定可能であり、この
ように、認識されるまでの時間を可変できるようにする
ことによって、ユーザの意図する動作を行わせることが
可能となり、たとえば、TVゲームなど素早い応答が要
求される機器にも適用することができる。
【0017】また、認識対象とする音声コマンドの長さ
は、上述したように語頭部としたり簡略化しりというよ
うに種々設定できるので、同じコマンドとなることが無
くなり、コマンドを明確に区別することができる。
【0018】そして、認識対象として設定された個々の
音声コマンドに対する標準モデルは、その音声コマンド
を構成する音素ごとの音素モデルを連結して生成される
標準モデルとすることによって、色々な標準モデルを生
成することができ、多種多様な音声コマンドに対応でき
る。
【0019】また、時間の長さで正規化されたそれぞれ
の標準モデルに対するそれぞれの時系列の出力尤度デー
タをある時刻ごとに比較し、その時刻において最大の尤
度を有する出力尤度データを検出し、検出された出力尤
度データがその出力尤度データを出力した標準モデルに
対して予め設定されたしきい値を超えたか否かを調べ、
しきい値を超えたことが判定されると、当該標準モデル
によってその音声コマンドを認識したと判定するように
している。
【0020】これは、入力された音声コマンドがどの標
準モデルで認識されたかを判定する処理であり、それぞ
れの標準モデルごとに、しきい値の設定を可能とするも
のである。このしきい値は認識性の度合いを決定付ける
もので、これによっても、それぞれの音声コマンドごと
に認識性を優先させるか、応答性を優先させるかの設定
が可能となり、ユーザの意図する動作が可能となる。
【0021】
【発明の実施の形態】以下、本発明の実施の形態につい
て説明する。なお、この実施の形態で説明する内容は、
本発明の音声認識方法、音声認識装置についての説明で
あるとともに、本発明の音声認識処理プログラムを記録
した記録媒体における音声認識処理プログラムの具体的
な処理内容をも含むものである。
【0022】本発明は前述したようにシステム側で認識
可能な音声コマンドの種類やその音声コマンドによる機
器の動作内容に応じて、応答の早さを優先させるか、応
答の早さよりも確実な認識性を優先させるかなどをユー
ザが設定できるようにしたものである。
【0023】たとえば、前述した音声コマンドにより動
作するリモコンカーを例にとれば、「とまれ」という音
声コマンドに対しては応答の早さを優先させ、また、
「すすめ」などの音声コマンドに対しては確実性を優先
させたいと考えた場合は、それぞれに対応できる設定を
可能とする。さらに、「みぎにまがれ」や「ひだりにま
がれ」などはその中間とするなどの設定も可能とする。
以下、本発明の実施の形態について説明する。
【0024】図1は本発明の音声認識装置の概略構成を
説明するブロック図であり、音声入力部(マイクロホ
ン)1、A/D変換部2、音声分析部3、音声認識処理
部4、動作制御部5、ユーザ設定部6、駆動部7、標準
モデルデータ記憶部8などから構成されている。
【0025】このような構成において、音声入力部1、
A/D変換部2、音声分析部3、音声認識処理部4、動
作制御部5、駆動部7などは普通の音声認識装置に一般
的に用いられているいるもので、特に本発明の特徴とな
るものではない。本発明は、音声コマンドの種類や機器
の動作内容などに応じて各種パラメータ(後に説明す
る)の設定をユーザ設定部6によって設定可能とするこ
とに特徴がある。また、ユーザの設定に応じて標準モデ
ルデータ記憶部8内に格納される標準モデルもそれに対
応したものとなる。なお、この実施の形態ではHMM
(隠れマルコフモデル)を用いた音声認識を行うものと
する。以下、具体例を参照しながら本発明の実施の形態
を説明する。
【0026】図2は音声分析部3が行う音声分析の例を
示す図であり、この音声分析部3では1つ1つのフレー
ムのそれぞれのフレーム長が20msec、シフト長が10
msecで常に音声分析を行っているものとする。そして、
入力音声のパワー(たとえばある時間ごとの音の大きさ
の平均値)を見ていて、パワーがある値以上となったと
きを音声の開始とし、パワーがある値以下となった時点
を音声の終了とする。ただし、この場合、1つのフレー
ム単位で処理を行うので、あるフレームの途中で音声開
始が検出された場合でもそのフレームの開始点を音声開
始点とする。音声終了点も同様に考える。したがって、
図2の例においては、時刻tsから時刻teまでを音声
区間とする。
【0027】そして、その音声区間におけるそれぞれの
フレーム(図2の例では、フレームF1.F2,・・
・,Fnとする)の音声データ(たとえば、個々のフレ
ームの音声データは10次元あるいは20次元といった
LPCケプストラム係数で表されるとする)が時刻t
1,t2,t3,・・・,tnごとの時系列データとし
て出力される。この時系列データをCt1,Ct2,C
t3,・・・,Ctnで表す。つまり、Ct1はフレー
ムF1(時刻t1)における音声データ、Ct2はフレ
ームF2(時刻t2)における音声データである。
【0028】このようにして、認識可能な音声コマンド
として予め登録した単語それぞれについて音声分析を行
い、それぞれの音声コマンドの音声区間に対しそれぞれ
のフレームごとの音声データを得て、それを時系列デー
タとして出力する。
【0029】一方、それぞれの音声コマンドについて、
それぞれの音声コマンドを構成する音素ごとの音素モデ
ルを連結して、認識対象となる音声コマンドの標準モデ
ル(これをここでは音素連結モデルと呼ぶことにする)
を生成して、それを標準モデルデータ記憶部8に格納し
ておく。
【0030】たとえば、「とまれ」という音声コマンド
に対しては、「とまれ(tomare)」を構成するそ
れぞれの音素「t」、「o」、「m」、「a」、
「r」、「e」に対する音素モデルを連結することによ
り「とまれ」の音素連結モデルが作成される。ただし、
本発明では、ユーザの設定により、音声コマンドの長さ
の設定が可能となっていて、長さの設定された音声コマ
ンドの音素連結モデルを作成することができるようにな
っている。たとえば、「とまれ(tomare)」とい
う音声コマンドに対して、認識対象とする音声コマンド
の長さを「と」だけとした設定を行ったとすれば、「と
まれ(tomare)」を構成するそれぞれの音素のう
ち、「t」と「o」の音素モデルを連結した「to」の
音素連結モデルの作成が可能となっている。この具体的
な説明については後述する。これは、他の音声コマンド
についても同様である。
【0031】ユーザ設定部6は、ユーザによって音声コ
マンドに対し、どのような認識を行うかを決めるための
パラメータの設定が可能となっている。そのパラメータ
というのは、認識する音声コマンドの長さや、認識精度
を決めるためのしきい値(詳細は後述する)などであ
る。
【0032】認識する音声コマンドの長さの設定の一例
としては、たとえば、「とまれ」については「と」で認
識させ、「すすめ」については「すすめ」を全て認識さ
せ、「みぎにまがれ」については「みぎ」で認識させ、
「ひだりにまがれ」については「ひだ」で認識させると
いうように、それぞれの音声コマンドの長さを設定可能
とする。
【0033】これらの音声コマンドの長さを設定する手
段としては、たとえば、音声コマンド長さ設定レバーな
どを機器の裏側などに設け、それぞれの音声コマンドご
とに用意された設定レバーを設定したい箇所までスライ
ドさせることにより行うことも可能である。また、それ
ぞれの音声コマンドごとにそれぞれの音声コマンドを構
成する音素そのものを指定することも可能である。
【0034】図3(a)は「みぎにまがれ」という音声
コマンドに沿って設けられた溝20内を矢印a−a’に
スライド可能なコマンド長設定レバー21により、音声
コマンドの長さを設定する例を示すもので、この場合、
コマンド長設定レバー21によって音声コマンドの長さ
を「みぎ」まで設定した例が示されている。
【0035】また、同図(b)はそれぞれの音素対応に
設けられたコマンド長設定ボタンBT1,BT2,・・
・を押す(押されたボタンは黒丸で示されている)こと
によって、音素を指定する例を示すもので、この場合、
「miginimagare」の左から4番目の音素
「i」までを指定した例を示し、これにより、「mig
i」までの長さが指定されることになる。
【0036】このように、ユーザによって音声コマンド
長が指定されると、指定された音声コマンド長に対応す
る音声区間長が決定され、その音声区間長の時系列デー
タに対する音声認識処理が行われる。なお、この音声コ
マンドの長さ指定は、これに限られるものではなく種々
の手段が考えられる。
【0037】ところで、この発明の実施の形態では、音
声認識処理部4が行う音声認識の手法として、HMMを
用いた音声認識を行う。これについて図4を参照しなが
ら簡単に説明する。
【0038】たとえば、「とまれ」という単語に対して
は語頭部の「と」、「みぎにまがれ」に対しては簡略化
して「みぎ」、「ひだりにまがれ」に対しては同じく簡
略化して「ひだ」、「すすめ」に対してはそのまま「す
すめ」というようにユーザが設定し、それらに対して、
「to」、「migi」、「hida」、「susus
me」の音素連結モデルが標準モデルとしてそれぞれ作
成されているものとする。なお、「to」の標準モデル
を音素連結モデルA、「migi」の標準モデルを音素
連結モデルB 、「hida」の標準モデルを音素連結
モデルC 、「sususme」の標準モデルを音素連
結モデルDと呼ぶことにする。
【0039】ここで今、ユーザがある音声コマンドを発
話したとする。なお、ユーザの発話する音声コマンドは
語頭部や簡略化した音声コマンドではなく、「とまれ」
なら「とまれ」、「みぎにまがれ」なら「みぎにまが
れ」をそのまま発話する。ユーザの発話した音声コマン
ドは、音声分析部3で図2に示すように音声分析が行わ
れる。図2の例では、時刻t1,t2,t3,・・・,
tnごとのフレームF1,F2,・・・,Fnに対し、
たとえば、それぞれのフレームごとにたとえば10次元
のLPCケプストラム係数でなる時系列データCt1,
Ct2,・・・,Ctnを得る。この時系列データCt
1,Ct2,・・・,Ctnと上述したそれぞれの音素
連結モデルA,B,C,Dとを対応付けたとき、それぞ
れの音素連結モデルに対する尤度(確からしさを示す
値)が出力される。
【0040】たとえば、時系列データCt1,Ct2,
・・・,Ctnを音素連結モデルAに対応付けたときの
時系列の出力が、pAt1,pAt2,・・・,pAt
nであったとする。それを時間の長さで正規化し、正規
化された出力尤度(正規化出力尤度という)を大文字の
PAt1,PAt2,・・・,PAtnで表すとする。
同様に、時系列データCt1,Ct2,・・・,Ctn
を音素連結モデルBに対応付けたときの時系列の出力
が、pBt1,pBt2,・・・,pBtnであって、
それを時間で正規化した正規化出力尤度をPBt,PB
2,・・・,PBtnで表すとする。
【0041】同様に、時系列データCt1,Ct2,・
・・,Ctnを音素連結モデルCに対応付けたときの時
系列の出力が、pCt1,pCt2,・・・,pCtn
であって、それを時間で正規化した正規化出力尤度をP
Ct1,PCt2,・・・,PCtnで表すとする。同
様に、時系列データCt1,Ct2,・・・,Ctnを
音素連結モデルDに対応付けたときの時系列の出力が、
pDt1,pDt2,・・・,pDtnであって、それ
を時間で正規化した正規化出力尤度をPDt1,PDt
2,・・・,PDtnで表すとする。
【0042】このようにして、ある音声コマンドをそれ
ぞれの音素連結モデルA,B,C,Dに対応づけると、
それぞれの音素連結モデルに対する正規化出力尤度がそ
れぞれの時刻対応の出力として得られる。つまり、この
図4の例では、入力された音声コマンドに対しては時系
列データCt1,Ct2,・・・,Ctnが出力される
が、まず、時刻t1のデータCt1を音素モデルA,
B,C,Dに対応付けたとき、音素連結モデルAに対す
る正規化出力尤度はPAt1、音素連結モデルBに対す
る正規化出力尤度はPBt1、音素連結モデルCに対す
る正規化出力尤度はPCt1、音素連結モデルDに対す
る正規化出力尤度はPDt1がそれぞれ出力される。
【0043】同様に、時刻t2のデータCt2を音素連
結モデルA,B,C,Dに対応付けたとき、音素連結モ
デルAに対する正規化出力尤度はPAt2、音素連結モ
デルBに対する正規化出力尤度はPBt2、音素連結モ
デルCに対する正規化出力尤度はPCt2、音素連結モ
デルDに対する正規化出力尤度はPDt2がそれぞれ出
力される。
【0044】このように、それぞれの時刻ごとのデータ
をそれぞれの音素連結モデルA,B,C,Dに対応付け
ることにより、図4に示すようなそれぞれの音素連結モ
デルに対する正規化出力尤度が得られる。なお、時間で
正規化するのは、長さの異なる(フレーム数の異なる)
音声コマンドを同じ尺度で扱えることができるようにす
るためである。
【0045】そして、各時刻ごとにどの音素連結モデル
の正規化出力尤度が最大となるかを調べる。すなわち、
まず、時刻t1における音素連結モデルA,B,C,D
のそれぞれの出力尤度PAt1、 PBt1、 PCt
1、 PDt1のなかで、最大の正規化出力尤度がどれ
であるかを検出する。そして、たとえば、正規化出力尤
度PAt1が他の正規化出力尤度PBt1、 PCt
1、 PDt1に対し最も大きいとすれば、その時刻t
1における最大の正規化出力尤度PAt1がその最大の
正規化出力尤度を得た音素連結モデルAに設定されたし
きい値ThAを超えたかどうか( PAt1>ThA)
を調べる。
【0046】なお、このしきい値はそれぞれの音素連結
モデルA,B,C,Dごとに設定されている。つまり、
音素連結モデルAに対してはしきい値ThA、音素連結
モデルBに対してはしきい値ThB、音素連結モデルC
に対してはしきい値ThC、音素連結モデルDに対して
はしきい値ThDが設定されているもので、このしきい
値はユーザがユーザ設定部6により設定可能となってい
て、その値の大きさは認識性の度合い決定するものであ
る。
【0047】すなわち、しきい値を大きく取れば、しき
い値を超えるに必要な大きさの正規化出力尤度が得られ
るまでに多くの時間を要するため、認識されるまでの時
間がそれだけ多く必要となる。つまり、しきい値が大き
な値であると、設定されたコマンド長に対応する音声を
殆どすべて発話し終わらないと、しきい値を超えるに必
要な正規化出力尤度が得られない可能性が高く、それに
よって、認識結果が出るまでに多くの時間を要する。し
かし、その分、高精度な認識結果が得られる。
【0048】これに対して、しきい値を小さく取れば、
しきい値を超えるに必要な大きさの正規化出力尤度は比
較的早く得られ、認識されるまでの時間がそれ分だけ少
なくすることができる。つまり、しきい値が小さな値で
あると、設定されたコマンド長に対応する音声を発話し
始めて間もなく、しきい値を超えるに必要な正規化出力
尤度が得られる可能性もあり、それによって、短い時間
で認識結果が出ることになる。しかし、許容範囲が広く
なって、その分、認識精度は低くなる。
【0049】ところで、上述したPAt1>ThAを判
定し、正規化出力尤度PAt1がしきい値ThAを超え
ていれば、その時点で入力された音声コマンドは音素連
結モデルAで認識されたことになるが、通常、初期の段
階(時刻t1やt2)などでは出力尤度は殆どゼロに近
く、時刻の経過に伴って出力尤度が大きくなって行くの
で、初期の段階ではしきい値を超えることは殆どない。
【0050】そして、その時刻において最大である正規
化出力尤度が対応する音素連結モデルのしきい値を超え
なければ、次の時刻t2において同様の処理を行う。
【0051】このようにして、ある入力音声コマンドの
時系列データの各時刻ごとに、どの音素連結モデルから
の正規化出力尤度が最大であるかを調べ、最大の正規化
出力尤度がその最大の正規化出力尤度を得た音素連結モ
デルのしきい値を超えたかどうかを調べ、しきい値を超
えていなければ次の時刻において同様の処理を行い、し
きい値を超えるまで同じ処理を繰り返す。
【0052】そして、たとえば、時刻t10における正
規化出力尤度PAt10が同じ時刻t10における他の
正規化出力尤度PBt10、 PCt10、 PDt10
のなかで最大で、かつ、PAt10>ThAとなったと
すると、その時刻t10において、その入力音声コマン
ドは音素連結モデルAで認識されたと判定する。この場
合、「と」が認識されたことになる。
【0053】そして、動作制御部5ではその認識結果を
用いて、予め設定された制御を行う。この場合は、ユー
ザはシステム側に対し「とまれ」と発話しているので、
システム側では、「と」を認識した段階で、この場合は
ラジコンカーの動作を直ちに停止させる制御を行う。
【0054】以上はユーザが音声コマンドとして「とま
れ」と発話した場合であるが、他の音声コマンドを発話
した場合にも上述したと同様の動作が行われる。たとえ
ば、「みぎにまがれ」と発話した場合には、それを音声
分析して得られた時系列データが出力され、音素連結モ
デルA,B,C,Dとの対応付けが行われることによっ
て、それぞれの音素連結モデルA,B,C,Dから正規
化出力尤度が出力される。
【0055】この場合、「みぎにまがれ」の音声区間に
対する時系列データの各時刻ごとに、どの音素連結モデ
ルからの正規化出力尤度が最大であるかを調べ、最大の
正規化出力尤度がその最大の正規化出力尤度を得た音素
連結モデルのしきい値より大きいかどうかを調べる。
【0056】そして、たとえば、時刻t10における正
規化出力尤度PBt10が同じ時刻t10における他の
正規化出力尤度PAt10、 PCt10、 PDt10
のなかで最大で、かつ、PBt10>ThBとなったと
すれば、その時刻t10において、その入力音声コマン
ドは音素連結モデルBで認識されたと判定する。この場
合、音素連結モデルBは「m」、「i」、「g」、
「i」の音素を連結して形成された音素連結モデルであ
るので、「みぎ」が認識されたことになり、その「み
ぎ」が認識された段階で、ユーザの発話した音声コマン
ドは「みぎにまがれ」であると判断され、動作制御部5
ではその認識結果によって、この場合は、ラジコンカー
の進行方向を右に曲げる制御を行う。
【0057】また、同様に、ユーザが「ひだりにまが
れ」を発話した場合には、それを音声分析して得られた
時系列データが出力され、音素連結モデルA,B,C,
Dとの対応付けが行われることによって、それぞれの音
素連結モデルA.B.C.Dから正規化出力尤度が出力
される。
【0058】そして、「ひだりにまがれ」の音声区間に
対する時系列データの各時刻ごとに、どの音素連結モデ
ルからの正規化出力尤度が最大であるかを調べ、最大の
正規化出力尤度がその最大の正規化出力尤度を得た音素
連結モデルのしきい値より大きいかどうかを調べる。
【0059】そして、たとえば、時刻t10における正
規化出力尤度PCt10が同じ時刻t10における他の
正規化出力尤度PAt10、 PBt10、 PDt10
のなかで最大で、かつ、PCt10>ThCとなったと
すれば、その時刻t10において、その入力音声コマン
ドは音素連結モデルCで認識されたと判定する。この場
合、音素連結モデルCは「h」、「i」、「d」、
「a」の音素を連結して形成された音素連結モデルであ
るので、「ひだ」が認識されたことになり、その「ひ
だ」が認識された段階で、ユーザの発話した音声コマン
ドは「ひだりにまがれ」であると判断され、動作制御部
5ではその認識結果によって、この場合は、ラジコンカ
ーの進行方向を左に曲げる制御を行う。
【0060】また、同様に、「すすめ」と発話した場合
には、それを音声分析して得られた時系列データが出力
され、音素連結モデルA,B,C,Dとの対応付けが行
われることによって、それぞれの音素連結モデルA.
B.C.Dから正規化出力尤度が出力される。そして、
「すすめ」に対する音声コマンドの時系列データの各時
刻ごとにどの音素連結モデルからの正規化出力尤度が最
大であるかを調べ、最大の正規化出力尤度がその最大の
正規化出力尤度を得た音素連結モデルのしきい値より大
きいかどうかを調べる。
【0061】そして、たとえば、時刻t10における正
規化出力尤度PDt10が同じ時刻t10における他の
正規化出力尤度PAt10、 PBt10、 PCt10
のなかで最大で、かつ、PDt10>ThDとなったと
すれば、その時刻t10において、その入力音声コマン
ドは音素連結モデルCで認識されたと判定する。この場
合、音素連結モデルDは「s」、「u」、「s」、
「u」、「m」、「e」の音素を連結して生成された音
素連結モデルであるので、ユーザの発話した音声コマン
ドは「すすめ」であると認識され、動作制御部5ではそ
の認識結果によって、この場合は、ラジコンカーの走行
を開始させる制御を行う。
【0062】以上の例では、ラジコンカーを動作させる
際、停止させる場合は、ユーザの発話する「とまれ」の
音声コマンドに対して「と」の部分で認識を行ってそれ
に対する動作を行い、右折させる場合は、ユーザの発話
する「みぎにまがれ」の音声コマンドに対して「みぎ」
で認識を行ってそれに対する動作を行い、左折させる場
合は、ユーザの発話する「ひだりにまがれ」の音声コマ
ンドに対して「ひだ」で認識を行ってそれに対する動作
を行い、発進させる場合は、ユーザの発話する「すす
め」をそのまま認識してそれに対する動作を行うように
している。
【0063】このように、各種の音声コマンドに対し、
それぞれの音声コマンドの音声区間に始点からどの部分
までを認識させるかは、ユーザが任意に設定できるもの
で、コマンドの種類や機器の動作内容により、認識性を
優先させるか応答性を優先させるかによって設定するの
が都合がよい。
【0064】すなわち、確実に認識させて動作を行わせ
る方を優先させる場合には、音声コマンドを簡略化しな
いである程度の長さを有する音声コマンドとし、素早い
応答を優先させる場合には、音声コマンドを語頭部のみ
としたり簡略化したりする。
【0065】上述した例では、走行しているラジコンカ
ーを止める場合は、衝突を避け安全性を考えて、認識対
象とする音声コマンドは「と」だけの最短なものとし、
左右に曲げる場合はそれに準じる長さとしている。ま
た、停止している状態から発進させる場合には、確実な
動作を行わせるために「すすめ」というように簡略化し
ない音声コマンドとした例が示されている。ただし、こ
れは一例であって、ユーザの意図によって任意に変える
ことができる。
【0066】ところで、ユーザの設定可能なパラメータ
としては、上述したように、音声コマンドの長さがある
が、音声コマンドの長さだけではなく、前述した各音素
連結モデルA,B,C,Dのしきい値ThA,ThB,
ThC,ThDの大きさをも設定可能としている。
【0067】このしきい値は、前述したように、認識性
能に関係するもので、しきい値を大きく取れば、しきい
値を超えるに必要な大きさの正規化出力尤度が得られる
までに多くの時間を要するため認識されるまでの時間が
それだけ多く必要となるが、高精度な認識結果が得られ
る。これに対して、しきい値を小さく取れば、しきい値
を超えるに必要な大きさの正規化出力尤度は比較的早く
得られ、認識されるまでの時間がそれ分だけ少なくする
ことができるが、許容範囲が広くなって認識精度は低く
なる。
【0068】このしきい値の設定は、たとえば、しきい
値の大きさを大・中・小で表して、しきい値設定用とし
て設けられたレバー(図示せず)をその大・中・小のい
ずれかに設定するといった設定の仕方や、しきい値とし
て、たとえば、5段階の目盛りを表示して、しきい値設
定用として設けられたレバーをその5段階のいずれかに
設定する設定の仕方、さらには、最小から最大までの間
でしきい値設定用レバーを連続的に可変とし任意の位置
に設定することでしきい値を任意の大きさに設定するこ
とも可能であり、その設定の仕方は種々考えられる。
【0069】図5は本発明の処理手順を説明するフロー
チャートである。図5において、まず、ユーザ設定部6
によりユーザがそれぞれの音声コマンドごとに認識対象
とする音声コマンドの長さを設定するとともに、前述し
たしきい値の設定を行う(ステップs1)。
【0070】具体例としては、停止させるための音声コ
マンド「とまれ」に対しては「と」、右折させるための
音声コマンド「みぎにまがれ」に対しては「みぎ」とい
うように、それぞれの音声コマンドに対し、音声区間の
始点からどの部分までを認識対象とするかを設定する。
また、しきい値の設定は前述したように、たとえば前述
のような音素連結モデルA,B,C,Dが生成されてい
たとすれば、それぞれの音素連結モデルA,B,C,D
ごとにしきい値ThA,ThB,ThC,ThDを設定
する。
【0071】このような設定を行ったあと、機器の動作
を開始し、音声コマンドの入力を行う(ステップs
2)。この音声コマンドは、たとえば、「とまれ」、
「みぎにまがれ」、「ひだりにまがれ」、「すすめ」な
どである。そして、入力された音声コマンドを音声分析
し、音声区間の始点を検出して、それぞれの時刻t1,
t2,・・・,tn対応の時系列データ(前述したよう
に、たとえば、10次元のLPCケプストラム係数)が
出力され、音声認識処理部4に与えられる(ステップs
3)。
【0072】音声認識処理部4では、入力された時系列
データと各音素連結モデルA,B,C,Dとを対応づけ
て、それぞれの音素連結モデルに対する正規化出力尤度
Pxtを逐次計算する(ステップs4)。
【0073】ここで、 xは音素連結モデルの種類を表
し、tは各フレーム対応の時刻を表している。たとえ
ば、「と」の音声に対する時系列データ(時刻t1,t
2,・・・,tnにおける音声データCt1,Ct2,
・・・,Ctn)と音素連結モデルAとを対応づけたと
すれば、音素連結モデルAに対する各時刻対応の正規化
出力尤度は、PAt1, PAt2, PAt2,・・
・, PAtnで表される。
【0074】このようにして、ある音声コマンドを入力
すると、それぞれの音素連結モデルA,B,C,Dごと
に入力された音声コマンドに対する各時刻対応の正規化
出力尤度が出力される。
【0075】そして、各時刻ごとに、どの音素連結モデ
ルの正規化出力尤度が最大となるかを調べる(ステップ
s5)。その最大の正規化出力尤度を得た音素連結モデ
ルをx’で表せば、その音素連結モデルx’によって得
られた正規化出力尤度Px’tがその音素モデルx’に
予め設定されたしきい値Thx’を超えているかどうか
を調べる。つまり、 Px’t > Thx’を調べる
(ステップs6)。
【0076】そして、 Px’t > Thx’でなけれ
ば、次の時刻においてどの音素連結モデルの正規化出力
尤度が最大となるかを調べ、その最大の正規化出力尤度
がPx’t > Thx’であるかどうかを調べる処理
(ステップs4,s5,s6)を繰り返す。そして、
Px’t > Thx’となった時点で、その入力音声は
その音素連結モデルx’による認識されたと判断し(ス
テップs7)、その認識結果に基づく制御を行う(ステ
ップs8)。
【0077】ステップs5以降の処理を具体例で説明す
れば、まず、時刻t1における音素連結モデルA,B,
C,Dのそれぞれの正規化出力尤度PAt1、 PBt
1、PCt1、 PDt1のなかで、最大の出正規化力
尤度がどれであるかを検出する。たとえば、正規化出力
尤度PAt1が他の正規化出力尤度PBt1、 PCt
1、 PDt1に対し最も大きいとすれば、その最大の
正規化出力尤度を得た音素連結モデルは音素連結モデル
Aであり、その場合、x’=音素連結モデルAとなる。
【0078】そして、正規化出力尤度PAt1がPAt
1>ThAであるか否かを調べ、PAt1>ThAでな
ければ、今度は、時刻t2における音素連結モデルA,
B,C,Dのそれぞれの正規化出力尤度PAt2、 P
Bt2、 PCt2、 PDt2のなかで、最大の正規化
出力尤度がどれであるかを検出する。ここでも正規化出
力尤度PAt1が最も大きいとすれば、正規化出力尤度
PAt1がPAt1>ThAであるか否かを調べる。
【0079】このようにして、ある入力音声コマンドの
時系列データの各時刻ごとにどの音素連結モデルからの
正規化出力尤度が最大であるかを調べ、最大の正規化出
力尤度がその最大の正規化出力尤度を得た音素連結モデ
ルのしきい値より大きくなるまで同じ処理を繰り返す。
【0080】そして、たとえば、時刻t10における正
規化出力尤度PAt10が同じ時刻t10における他の
正規化出力尤度PBt10、 PCt10、 PDt10
のなかで最大で、かつ、PAt10>ThAとなったと
すれば、その時刻t10において、その入力音声コマン
ドは音素連結モデルAで認識されたと判定する。この場
合、「と」が認識されたことになる。動作制御部5では
その認識結果を用いて、予め設定された制御を行う。
【0081】なお、本発明は以上説明した実施の形態に
限定されるものではなく、本発明の要旨を逸脱しない範
囲で種々変形実施可能となるものである。たとえば、音
声コマンドは機器の動作内容に対応して設定されるもの
であるが、意味を同じくする内容であればそれをユーザ
が任意に設定することも可能である。
【0082】たとえば、「とまれ」の代わりに「ストッ
プ」、「みぎ」の代わりに「ライト」というような表現
の仕方を音声コマンドとしてもよい。この場合、認識対
象とする音声コマンドとしては、「ストップ」に対して
は「ス」、「ライト」に対しては「ラ」などというよう
な設定も可能である。これらは、その機器を使用する前
にユーザが機器に対して設定することができるようにし
ておく。一方、機器側では、「ス」の音声を認識したと
きは機器の動作を停止、「ラ」を認識したときは右に曲
げるというような設定がなされるようにしておけばよ
い。
【0083】また、機器に対し、どのような音声コマン
ドを認識させるかの設定は、前述の例では、操作レバー
などによって、それぞれの音声コマンドごとに、語頭部
からの長さを設定する例を示したが、これに限られるも
のではなく、たとえば、キーボードなどの入力操作盤な
どを用意し(機器に備え付けでもよく、あるいは、外部
から機器に接続するものでもよい)、このような入力操
作盤からでアルファベットなどを入力して音声コマンド
を指定するようにしてもよい。たとえば、「とまれ」に
対しては「t」と「o」のアルファベットを入力すると
いった方法で設定するようにしてもよい。
【0084】また、前述の実施の形態では、HMMによ
る音声認識を用いた例で説明したが、音声認識の手法と
しては、HMMによるものでなくたとえばニューラルネ
ットワークを用いた音声認識であってもよい。その場
合、語頭部のみあるいは簡略化した音声コマンドの標準
単語モデルを用意しておけばよい。たとえば、「と」で
あれば、「と」の標準単語モデルを作成しておく。
【0085】さらに、前述の実施の形態では本発明をラ
ジコンカーに適用した例で説明したが、これに限られる
ものではなく、本発明は音声コマンドで動作可能な機器
全般に適用できるものである。
【0086】また、以上説明した本発明の処理を行う音
声認識処理プログラムは、フロッピィディスク、光ディ
スク、ハードディスクなどの記録媒体に記録させておく
ことができ、本発明はその記録媒体をも含むものであ
る。また、ネットワークから処理プログラムを得るよう
にしてもよい。
【0087】
【発明の効果】以上説明したように本発明によれば、そ
れぞれの音声コマンドに対し、認識対象とする音声区間
長さを個々の音声コマンドごとに設定可能とすることに
よって、コマンドの種類に応じて、認識対象とする音声
コマンドを語頭部のみとしたりあるいは簡略化して短く
することができ、認識されるまでの時間の短縮化が図れ
る。これは、コマンドの種類や機器の動作内容に応じ、
応答性を優先するかあるいは認識性能を優先するかによ
ってユーザが設定できるものである。このように、認識
されるまでの時間を可変できるようにすることによっ
て、応答の早さを優先させる場合には、認識対象とする
音声コマンドを短くし、確実な動作を優先させる場合
は、音声コマンドを簡略化しないで音声コマンドをその
まま認識対象とするなど、ユーザの意図する動作を行わ
せることが可能となり、たとえば、TVゲームなど素早
い応答が要求される機器にも適用することができる。ま
た、コマンドは、上述したように語頭部だけでなく簡略
化したものなど色々設定できるので、同じコマンドとな
ることが無くなり、コマンドを明確に区別することがで
きる。
【0088】また、時間の長さで正規化されたそれぞれ
の標準モデル(音素連結モデル)に対するそれぞれの時
系列の正規化出力尤度データをある時刻ごとに比較し、
その時刻において最大の正規化出力尤度を有する出力尤
度データを検出し、検出された正規化出力尤度データが
その正規化出力尤度データを出力した標準モデルに予め
設定されたしきい値を超えたか否かを調べ、しきい値を
超えたことが判定されると、当該標準モデルによってそ
の音声コマンドを認識したと判定するようにしている。
【0089】これは、入力された音声コマンドがどの標
準モデルで認識されたかを判定する処理であり、それぞ
れの標準モデルごとに、しきい値の設定を可能とするも
のである。このしきい値は認識性の度合いを決定付ける
もので、これによっても、それぞれの音声コマンドごと
に認識性を優先させるか、応答性を優先させるかの設定
が可能となり、コマンドの種類や機器の動作内容に応じ
てユーザの意図する動作が可能となる。
【図面の簡単な説明】
【図1】本発明の実施の形態である音声認識装置の構成
を概略的に示すブロック図である。
【図2】入力された音声コマンドに対する音声分析処理
を説明する図である。
【図3】認識対象とする音声コマンドの長さを設定する
具体的な手段の一例を示す図である。
【図4】ある音声コマンドを音声分析された得られた時
系列データを複数用意された音素連結モデルに対応付け
ることによって出力された出力尤度(正規化出力尤度)
を用いて認識処理する例を説明する図である。
【図5】本発明の本発明の実施の形態の処理手順を説明
するフローチャートである。
【符号の説明】
1 音声入力部 2 A/D変換部 3 音声分析部 4 音声認識処理部 5 動作制御部 6 ユーザ設定部 7 駆動部 8 標準モデルデータ記憶部

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 それぞれの音声コマンドに対し、認識対
    象とする音声コマンドの長さを個々の音声コマンドごと
    に設定可能とするとともに、長さの設定された音声コマ
    ンドに対する標準モデルを生成し、 音声コマンドが入力されると、その音声コマンドを分析
    して当該音声コマンドの音声区間の始点を検出し、その
    始点から当該音声コマンドに対応する音声区間の分析結
    果を時系列データとして出力し、その時系列データと前
    記各標準モデルとを対応付けて、各標準モデルごとの出
    力を得て、その出力に基づいて入力音声を認識すること
    を特徴とする音声認識方法。
  2. 【請求項2】 前記長さの設定された個々の音声コマン
    ドに対する標準モデルは、その長さの設定された音声コ
    マンドを構成する音素ごとの音素モデルを連結してなる
    ことを特徴とする請求項1記載の音声認識方法。
  3. 【請求項3】 前記標準モデル出力に基づいて入力音声
    を認識する処理は、音声コマンドをある時刻ごとに分析
    して得られた時系列データを各音声コマンド対応に用意
    された標準モデルにそれぞれ与えて、それぞれの標準モ
    デルに対する時系列の出力尤度データを得て、それを時
    間の長さで正規化し、この時間の長さで正規化されたそ
    れぞれの標準モデルに対するそれぞれの出力尤度データ
    をある時刻ごとに比較し、その時刻において最大の尤度
    を有する出力尤度データを検出し、検出された出力尤度
    データがその出力尤度データを出力した標準モデルに対
    して予め設定されたしきい値を超えたか否かを調べ、し
    きい値を超えたことが判定されると、当該標準モデルに
    よってその音声コマンドを認識したと判定することを特
    徴とする請求項1または2記載の音声認識方法。
  4. 【請求項4】 前記標準モデルに設定されたしきい値
    は、個々の標準モデルごとにユーザによってその大きさ
    を設定可能とすることを特徴とする請求項3記載の音声
    認識方法。
  5. 【請求項5】 ユーザの発話した音声コマンドを認識
    し、その認識結果に基づいて制御をなす音声認識装置に
    おいて、 それぞれの音声コマンドに対し、認識対象とする音声コ
    マンドの長さを個々の音声コマンドごとに設定可能とす
    るユーザ設定部と、 音声コマンドが入力されると、その音声コマンドを分析
    して当該音声コマンドの音声区間の始点を検出し、その
    始点から当該音声コマンドに対応する音声区間の分析結
    果を時系列データとして出力する音声分析部と、 前記長さの設定された音声コマンドに対する標準モデル
    を格納する標準モデルデータ記憶部と、 前記音声分析部から出力される音声コマンドに対する時
    系列データが入力されると、その時系列データと前記各
    標準モデルとを対応付けて、各標準モデルに対する出力
    を得て、その出力に基づいて入力音声を認識する音声認
    識処理部と、 この音声認識処理部による認識結果に基づいた制御を行
    う動作制御部と、 を有することを特徴とする音声認識装置。
  6. 【請求項6】 前記長さの設定された個々の音声コマン
    ドに対する標準モデルは、その長さの設定された音声コ
    マンドを構成する音素ごとの音素モデルを連結してなる
    ことを特徴とする請求項5記載の音声認識装置。
  7. 【請求項7】 前記標準モデル出力に基づいて入力音声
    を認識する処理は、 音声コマンドをある時刻ごとに分析して得られた時系列
    データを各音声コマンド対応に用意された標準モデルに
    それぞれ与えて、それぞれの標準モデルに対する時系列
    の出力尤度データを得て、それを時間の長さで正規化
    し、この時間の長さで正規化されたそれぞれの標準モデ
    ルに対するそれぞれの出力尤度データをある時刻ごとに
    比較し、その時刻において最大の尤度を有する出力尤度
    データを検出し、検出された出力尤度データがその出力
    尤度データを出力した標準モデルに対して予め設定され
    たしきい値を超えたか否かを調べ、しきい値を超えたこ
    とが判定されると、当該標準モデルによってその音声コ
    マンドを認識したと判定することを特徴とする請求項5
    または6記載の音声認識装置。
  8. 【請求項8】 前記標準モデルに設定されたしきい値
    は、個々の標準モデルごとにユーザによってその大きさ
    を設定可能とすることを特徴とする請求項7記載の音声
    認識装置。
  9. 【請求項9】 ユーザの発話した音声コマンドを認識す
    る音声認識処理プログラムを記録した記録媒体であっ
    て、その音声認識処理プログラムは、 それぞれの音声コマンドに対し、認識対象とする音声コ
    マンドの長さを個々の音声コマンドごとに設定可能とす
    るとともに、長さの設定された音声コマンドに対する標
    準モデルを生成して保持しておき、 音声コマンドが入力されると、その音声コマンドを分析
    して当該音声コマンドの音声区間の始点を検出し、その
    始点から当該音声コマンドに対応する音声区間の分析結
    果を時系列データとして出力する手順と、 その時系列データと前記各標準モデルとを対応付けて、
    各標準モデルごとの出力を得て、その出力に基づいて入
    力音声を認識する手順と、 を含むことを特徴とする音声認識処理プログラムを記録
    した記録媒体。
  10. 【請求項10】 前記前記長さの設定された個々の音声
    コマンドに対する標準モデルは、その長さの設定された
    音声コマンドを構成する音素ごとの音素モデルを連結し
    てなることを特徴とする請求項9記載の音声認識処理プ
    ログラムを記録した記録媒体。
  11. 【請求項11】 前記標準モデル出力に基づいて入力音
    声を認識する処理は、 音声コマンドをある時刻ごとに分析して得られた時系列
    データを各音声コマンド対応に用意された標準モデルに
    それぞれ与えて、それぞれの標準モデルに対する時系列
    の出力尤度データを得て、それを時間の長さで正規化
    し、この時間の長さで正規化されたそれぞれの標準モデ
    ルに対するそれぞれの出力尤度データをある時刻ごとに
    比較し、その時刻において最大の尤度を有する出力尤度
    データを検出し、検出された出力尤度データがその出力
    尤度データを出力した標準モデルに対して予め設定され
    たしきい値を超えたか否かを調べ、しきい値を超えたこ
    とが判定されると、当該標準モデルによってその音声コ
    マンドを認識したと判定することを特徴とする請求項9
    たは10記載の音声認識処理プログラムを記録した記録
    媒体。
  12. 【請求項12】 前記標準モデルに設定されたしきい値
    は、個々の標準モデルごとにユーザによってその大きさ
    を設定可能とすることを特徴とする請求項11記載の音
    声認識処理プログラムを記録した記録媒体。
JP2000043345A 2000-02-21 2000-02-21 音声認識方法および音声認識装置ならびに音声認識処理プログラムを記録した記録媒体 Withdrawn JP2001236087A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000043345A JP2001236087A (ja) 2000-02-21 2000-02-21 音声認識方法および音声認識装置ならびに音声認識処理プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000043345A JP2001236087A (ja) 2000-02-21 2000-02-21 音声認識方法および音声認識装置ならびに音声認識処理プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2001236087A true JP2001236087A (ja) 2001-08-31

Family

ID=18566273

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000043345A Withdrawn JP2001236087A (ja) 2000-02-21 2000-02-21 音声認識方法および音声認識装置ならびに音声認識処理プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2001236087A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101804765B1 (ko) * 2016-01-08 2018-01-10 현대자동차주식회사 차량 및 그 제어방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101804765B1 (ko) * 2016-01-08 2018-01-10 현대자동차주식회사 차량 및 그 제어방법

Similar Documents

Publication Publication Date Title
JP4657736B2 (ja) ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法
JP4260788B2 (ja) 音声認識機器制御装置
JP3968133B2 (ja) 音声認識対話処理方法および音声認識対話装置
US7698134B2 (en) Device in which selection is activated by voice and method in which selection is activated by voice
US7869999B2 (en) Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis
KR100742888B1 (ko) 음성 인식 방법
US8428944B2 (en) System and method for performing compensated speech recognition
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
JP2001034293A (ja) 音声を転写するための方法及び装置
WO2006083020A1 (ja) 抽出された音声データを用いて応答音声を生成する音声認識システム
JP2010197644A (ja) 音声認識システム
KR102417899B1 (ko) 차량의 음성인식 시스템 및 방법
JP3837061B2 (ja) 音信号認識システムおよび音信号認識方法並びに当該音信号認識システムを用いた対話制御システムおよび対話制御方法
JP5074759B2 (ja) 対話制御装置、対話制御方法及び対話制御プログラム
JP4839970B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP2000194392A (ja) 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体
JP2001236087A (ja) 音声認識方法および音声認識装置ならびに音声認識処理プログラムを記録した記録媒体
US11735178B1 (en) Speech-processing system
JP4094255B2 (ja) コマンド入力機能つきディクテーション装置
JP2001255887A (ja) 音声認識装置、音声認識方法及び音声認識方法を記録した媒体
JP2010204442A (ja) 音声認識装置、音声認識方法、音声認識プログラムおよびプログラム記録媒体
KR20210098250A (ko) 전자 장치 및 이의 제어 방법
JP4449380B2 (ja) 話者正規化方法及びそれを用いた音声認識装置
JPH07230293A (ja) 音声認識装置
JP2019191477A (ja) 音声認識装置及び音声認識方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060221

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20060329