JP3277579B2 - 音声認識方法および装置 - Google Patents

音声認識方法および装置

Info

Publication number
JP3277579B2
JP3277579B2 JP36141492A JP36141492A JP3277579B2 JP 3277579 B2 JP3277579 B2 JP 3277579B2 JP 36141492 A JP36141492 A JP 36141492A JP 36141492 A JP36141492 A JP 36141492A JP 3277579 B2 JP3277579 B2 JP 3277579B2
Authority
JP
Japan
Prior art keywords
utterance
speech recognition
speech
state
duration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP36141492A
Other languages
English (en)
Other versions
JPH06202689A (ja
Inventor
雅文 南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP36141492A priority Critical patent/JP3277579B2/ja
Publication of JPH06202689A publication Critical patent/JPH06202689A/ja
Application granted granted Critical
Publication of JP3277579B2 publication Critical patent/JP3277579B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声認識方法および装
置に関する。
【0002】
【従来の技術】従来の音声認識技術は、受け付ける発話
形態により、連続発話認識方法および離散発話認識方法
の2つに分類される。
【0003】
【発明が解決しようとする課題】上記2つの認識方法
は、ともに、ユーザの発話形態に不自然な制約を加える
という欠点を持っている。具体的には、離散発話認識方
法では、ユーザは、前もって登録された単語を小間切れ
に発話しなければならないし、連続発話認識方法におい
ては、逆に連続に文章を発話することを強いられる。
【0004】通常の人間の自然な発話には、発話の意味
と関係ない不要語、一時休止、言い換えとともに、発話
途中でも発話を中止してしまう等の現象も存在する。上
述の従来の方法では、この様な話言葉の自由度に過度に
制約を加えるため、ユーザに心理圧迫を加え、音声認識
装置を使いにくいものにしている。
【0005】従来手法においても、与えられた文法に対
して、途中迄の発話を受け付けることは、可能である。
それは、与えられた文法に対して、発話が中止する可能
性の有るステートから、終了ステートに対して、ジャン
プ‐アーク(jump arc)を接続することにより
実現される(図6参照)。
【0006】しかし、この手法は、中途までの発話を認
識できるが、ユーザがより長い発話をする場合に、発話
を全く切らないで行う必要がある(例えば、゛ビデオに
録画゛と言う発話において、゛ビデオ゛、゛に゛、゛録
画゛の間に休止が入ってはいけない)。そうしないと、
ユーザが最後まで発話しようと思っているのにも関わら
ず、途中までの解析結果を認識結果として出力されてし
まうという、ユーザにとって、発話時の心理的圧迫が大
きいという欠点を持つ。
【0007】本発明は、このような状況に鑑みてなされ
たものであり、ユーザが発話を任意の時間休止できるよ
うにする音声認識方法および装置を提供することを目的
とする。
【0008】
【課題を解決するための手段】本発明の音声認識方法
は、発話の語順を規定する情報中に、発話が途中で休止
する可能性にある部分に、独立に継続時間を設定し、音
声認識中に、前記設定された継続時間以上発話の休止が
継続したことにより(例えば、図4のステップS6のY
ES)、発話完了を検出し、その時点までの発話解析結
果を出力し、発話解析結果に基づいて音声合成を使用し
て応答を生成することを特徴とする
【0009】本発明の音声認識装置は、発話の語順を規
定する情報中の発話が途中で休止する可能性にある部分
に独立に設定された継続時間を記憶する記憶手段を備
え、設定された継続時間以上発話の休止が継続したこと
により、その時点までの発話解析結果を出力することを
特徴とする。
【0010】
【作用】本発明の音声認識方法および装置においては、
発話の語順を規定する情報中の発話が途中で休止する可
能性にある部分に継続時間が独立に設定され、設定され
た継続時間以上発話の休止が継続すると、その時点まで
の発話解析結果が出力される。従って、ユーザは、発話
を任意の時間休止することができる。
【0011】
【実施例】図1は、本発明の音声認識装置の一実施例の
構成を示す。音声信号処理部1は、音声信号入力につい
て時間領域、周波数領域での解析を行い、VQコード列
を出力する。音声認識処理部2は、音声信号処理部1か
らのVQコード列を受け、音韻モデル記憶部3、単語辞
書記憶部4および発話文法記憶部5を参照して、連続発
話された音声を認識する探索処理を行うモジュールであ
る。すなわち、音声認識処理部2は、予めデータとして
用意された以下の(A)(B)(C)の制約情報の中
で、VQコード列を最も確かに説明する単語列を、トレ
リス計算により求め、認識した単語列とその単語列の意
味する意味構造を出力する。
【0012】(A)記憶部3に記憶されたHMMにより
表現された音韻モデル (B)単語辞書記憶部4の記憶内容:システムの持つ単
語群の発音表記が音韻の列あるいは、ネットワークで表
現されているもの (C)発話文法記憶部5の記憶内容:ユーザの発話単語
列の制約が、文脈自由文法、あるいは、ネツトワーク手
法の枠組みで表現されているもの
【0013】対話管理部6は、認識処理部2からの認識
結果からユーザの要求を解釈し、機器7に対しての命令
の生成を行ったり、場合によっては、不足の情報を文生
成部8および音声合成部9を通じてユーザに発話し、ユ
ーザの情報提供を促したりする。
【0014】文生成部8は、対話管理部6から出力され
る応答意味表現すなわち発話意味情報からそれに相当す
る発話を発音記号列に変換して出力し、音声合成部9
は、文生成部からの発音記号列を受けて、実際に音声を
発する。
【0015】図1の構成において、本発明に係わる部分
は、音声認識処理部2と対話管理部6である。特に
(i)継続時間長の設定、(ii)継続時間長を用いた
発話完了検出、(iii)発話解析結果による対話管理
部6からのユーザへの応答生成が重要ポイントである。
以下に、文法の指定方法、無音声モデルについて説明
し、それらに継続時間長の設定の取り込み方法、及び、
この継続時間長を用いた発話終了検出方式について説明
する。
【0016】図2は、図1の実施例における発話文法、
単語辞書、音韻モデルおよび無音声モデルの関係を示
す。発話文法は、発話として受け付ける(文章の)語順
を規定するものである。この実施例では、ネットワーク
文法を用いる。しかし、後述のように、必ずしもこの記
述方法である必要はなく、分脈自由文法(末尾の参考文
献Shieber86参照)であってもよい。図2の様
に、ネットワーク文法では、状態(ステート)とアーク
により表現され、各アークには、単語あるいは、語彙カ
テゴリが付けられ、それにより、受け付ける発話文のバ
リエーションを表している。本発明では、図2の様に各
ステートに、次のようなタイプ(type),デスティ
ネーション(destination)および継続時間
長の各フィールドを設ける。
【0017】タイプ:ステートの種類を表し、後述の無
音声モデルを挿入するか、それとも、単なる遷移上の状
態なのかを決める。 デスティネーション:(単語(word),デスティネ
ーション−ステート)のペアになっており、このステー
トで入力が単語の時の遷移先ステートを記述した表であ
る。 継続時間長:タイプが無音声モデルの場合に設定される
タイムアウト値を保持する。この値は、各ステート毎に
独立に設定可能であり、文法で予め定数を設定したり、
発話を解析中に、動的に設定値を変更することも可能で
ある。
【0018】通常、途中で発話が中止する可能性のある
ステートに、継続時間長を設定する。
【0019】無音声モデルは、ユーザの発話がない部分
の音をモデル化したものである。従来技術においても、
上記ネットワーク上の状態群にこの無音声モデルを挿入
し、単語間の言い淀みに対処している手法が存在する
(末尾の参考文献KFLee88参照)。本発明の実施
例でも、状態に無音声モデルを挿入する事は、同様であ
るが、後述のアルゴリズムに有るように、継続時間長制
御をこの部分に導入している。
【0020】認識探索は、2次元の配列の(一方の軸
が、時間(通常フレーム数)、もう一方の軸が音韻モデ
ルの各ステート)トレリスと呼ばれるデータ構造の上で
なされる(図3参照)。
【0021】時間軸は、入力音声の時間軸に対応し、あ
る時間をt、とすると、その次の時間は、t+1にな
る。通常、単位変化時間は、10msecであり、各時
刻のステート群をフレームと称する。トレリス上の各ス
テートの時間軸方向の遷移は、音韻モデル、単語辞書、
文法から決定される。
【0022】トレリス上の各ステートは、認識スコア、
バックポインタ(一つ前のフレームにおいてどのステー
トから遷移したかを表す。)から構成される。無音声モ
デルを構成するステートでは、これに加えて、継続時間
長を記憶する領域を設ける。
【0023】本発明の実施例でも使用するビーム探索法
は、すべてのステートを並べる事はせずに、最も確立ス
コアの良いステートを基準として、一定の範囲に入るス
テートのみを探索の対象とする。(言い換えれば、ある
程度将来性のあるステートのみを考慮する)。
【0024】上記の音韻モデル、単語辞書、文法からト
レリスを生成する方法は、末尾の参考文献(Bridl
e82)に詳しく説明されており、ビーム探索手法につ
いては、末尾の参考文献(Kai−Fu Lee91)
に詳しく説明されている。
【0025】図4は、図1の実施例の音声認識アルゴリ
ズムを示す。以下、図4を参照して、本発明の実施例の
認識アルゴリズムを説明する。
【0026】処理は、概略、以下の手順で進む。処理の
概略は、末尾の参考文献(Kai−Fu Lee91)
に詳しく説明されている。
【0027】Step1.初期化(図4のステップS1
およびS2) 各フレーム毎の状態を保持するためのトレリスBを用意
する。Bは、t=0から発話終了フレームまでのNフレ
ーム分の大きさを持つ。以下、B[t]は、t番目のフ
レームのヒープを表し、通常、ビームの範囲に入ったス
テートが入れられる(従って、時刻tのステートすべて
が入るわけではない)。ステップS2では、時刻t=0
の状態について、文法上、発話の初期ステートの確率ス
コアを1,0とし、B[0]に登録する。
【0028】Step 2. 各フレーム毎の処理(図
4のステップS3乃至S8) すべてのステートについてフレーム同期(時刻tの処理
をすべて終えてから、時刻t+1の処理を行う事。)で
処理する。各フレームの処理は、通常の構文情報制御の
ビタビ(Viterbi)ビーム探索法を用いる(末尾
の参考文献Kai−Fu Lee91参照)。
【0029】Step3.認識終了及びバックトレース
処理(図4のステップS9) 各フレームの処理は、発話フレーム長Nまで繰り返され
る。その後、最後のフレーム(N−1番目)において、
最も確率スコアの良いステートから、バックポインタを
辿り(バックトレース処理)、認識結果のワード系列を
求める。
【0030】本発明の実施例と上記の通常の探索方法と
の相違は、 I.無音声モデル内の遷移の継続時間を計測すること。 II.この継続時間がある一定の限度を超えた場合、認
識を中止し、その時点までの認識結果を出力すること
(タイムアウト処理)。の2点である。
【0031】以下、図4を参照して、IおよびIIにつ
いて説明する。
【0032】I.無音声モデルの継続時間長の計測は、
図4中のステップS5:遷移先ステートの更新・登録ス
テップで行われる。ステートの違いにより、以下の3つ
のケースがある。 (1)ケース1:通常のこのステップでは(無音声モデ
ル以外のステート同士の遷移の場合)、 (i).遷移先のステート(時刻t+1)が、B[t+
1]にない場合は、このステートを確率スコア、遷移元
のステートを指し示すバックポインタと共にB[t+
1]に登録する、(ii).その他の場合(遷移先のス
テートが、B[t+1]に既にある場合)は、確率スコ
アの良い方をB[t+1]に登録する、といった処理を
行う。 (2)ケース2:無音声モデルへのその他モデルから遷
移の場合。 上記(i),(ii)ステップに於いて、遷移先ステー
トをB[t+1]に登録する際、継続時間を記録する領
域を設け、初期値を登録する。この初期値は、図2の様
に、無音声モデルの文法上の位置により設定したり、会
話の文脈により動的に設定することも可能である。 (3)ケース3:無音声モデル内の遷移の場合。 遷移先ステートをB[t+1]に登録する際、継続時間
情報を−1カウントダウンする。
【0033】II.継続時間のタイムアウト処理は、
(1)各フレーム毎に確率スコアの最大値を持つ状態が
無音声モデルであつて、 かつ、その継続時間領域が0
になっていたら、ビタビ探索を中止する(ステッ プS
6のYES)、(2)通常の認識結果を出力する動作の
バックトレース処理(ステップS9)を、上記の状態を
起点として行う、といった手順で行う。
【0034】上記以外の手順は、従来のビタビビーム探
索法に準ずる。
【0035】次に、本発明の実施例の対話管理手法につ
いて説明する。図1の認識処理部2の認識結果は、対話
管理部6に渡され、対話管理部6は、この発話結果(及
び現在の状況から)、機器7への制御指令及び、ユーザ
への発話を決定する。
【0036】上述の認識手法を用いることにより、この
対話管理部6においてよりユーザフレンドリなマン・マ
シン・インタフェースを実現することが可能になる。こ
れを、簡単な発話文法を例に、以下に説明する。
【0037】図5に、発話文法を示す。この文法は、ネ
ットワーク表現で、ビデオ、LD、カセットを制御する
発話を表しており、◎のステートは、終了状態を表す
る。
【0038】本発明の実施例では、各ステートにタイム
アウト値を対応させることにより、そのステートまでの
認識結果を対話管理部6に渡すことができる。
【0039】例えば、「ビデオに」という発話がされる
と、 1)認識処理部2は、助詞「に」の後のタイムアウトを
検出することにより、対話管理部6に発話解析結果(゛
ビデオに゛)を出力する。 2)対話管理部6は、認識結果を受け取り、会話の状況
など他の情報も加味して、ユーザへの発話(質問など)
を生成する事ができる。
【0040】例えば、発話構文を利用して、゛ビデオに
゛の後に゛録画゛しか続かない事を利用して、「ビデオ
に何を録音すれば良いのですか?」と言うようなユーザ
発話に基づく質問を生成できる。
【0041】本発明の重要点は、継続時間長を発話の切
れ目になりうる状態に設定して、発話終了検出をおこな
っている点である。
【0042】なお、上記例では、ネットワーク文法をも
ちいて説明したが、分脈自由文法その他の方法も使用で
きる。
【0043】また、上記例では、ワード(単語)間に無
音声モデルを挿入するように説明したが、この無音モデ
ルは、音韻間でも挿入ができる。
【0044】また、マルチプロセッサ構成におけるタイ
マー処理の割り込みも利用できる。
【0045】また、無音声モデルは、1モデルとは、限
らず、複数あってもよい。
【0046】参考文献を列挙すれば、次の通りである。
【0047】[Bridle82]Bridle.J.
S.et al,゛An Algorithm for
Connected Word Recogniti
on゛、Proc.ICASSP82,pp899−9
02,Paris,May 1982
【0048】[Kai−Fu Lee88]Lee.
K.F.゛Large−Vocabulary Spe
aker−independentContinuou
s Speech Recognition:The
SPHINX System゛、CMU−CS−88−
148、ComputerScience Dept.
Carnegie−Mellon Univ.
【0049】[Kai−Fu Lee91]Lee.
K.F.and Alleva.F.,゛Contin
uous Speech Recognition゛,
inAdvances in Speech Sign
al Prosessing,pp623−650,1
991 Marel Dekker Inc.
【0050】[Shieber 86]Shiebe
r.S.゛An Introduction to U
nification−based Approach
es to Grammar゛,Lecture No
tes of CSLI,Stanford Univ
ersity,1986
【0051】
【発明の効果】本発明の音声認識方法および装置によれ
ば、発話の語順を規定する情報中の発話が途中で休止す
る可能性にある部分に継続時間を独立に設定し、設定さ
れた継続時間以上発話の休止が継続すると、その時点ま
での発話解析結果を出力するようにしたので、ユーザ
は、発話を任意の時間休止することができる。また、ユ
ーザの心理的圧迫を軽減し、より使い易いヒューマンイ
ンタフェースを実現できる。
【図面の簡単な説明】
【図1】本発明の音声認識装置の一実施例の構成を示す
ブロック図である。
【図2】図1の実施例における発話文法、単語辞書、音
韻モデルおよび無音声モデルの関係を示す図である。
【図3】図1の実施例のトレリスを示す図である。
【図4】図1の実施例の音声認識アルゴリズムを示す図
である。
【図5】サンプル文法を示す図である。
【図6】従来の中途発話を受け付けるための文法の一例
を示す図である。
【符号の説明】
1 音声信号処理部 2 音声認識処理部 3 音韻モデル記憶部 4 単語辞書記憶部 5 発話文法記憶部 6 対話管理部 7 機器 8 文生成部 9 音声合成部
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 15/00 - 15/28

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】 発話の語順を規定する情報に従って入力
    音声を認識する音声認識方法において、 前記発話の語順を規定する情報中に、発話が途中で休止
    する可能性にある部分に、独立に継続時間を設定し、 音声認識中に、前記設定された継続時間以上発話の休止
    が継続したことにより、発話完了を検出し、 その時点までの発話解析結果を出力し、 前記発話解析結果に基づいて音声合成を使用して応答を
    生成することを特徴とする音声認識方法。
  2. 【請求項2】 前記発話が休止する可能性のある部分の
    位置を記憶することを特徴とする請求項1記載の音声認
    識方法。
  3. 【請求項3】 前記設定された継続時間を記憶すること
    を特徴とする請求項1記載の音声認識方法。
  4. 【請求項4】 発話の語順を規定する情報に従って入力
    音声を認識する音声認識装置において、 前記発話の語順を規定する情報中の発話が途中で休止す
    る可能性にある部分に独立に設定された継続時間を記憶
    する記憶手段を備え、 前記設定された継続時間以上発話の休止が継続したこと
    により、その時点までの発話解析結果を出力することを
    特徴とする音声認識装置。
  5. 【請求項5】 前記発話解析結果に従って、音声入力者
    に対して不足情報を提示する対話管理部をさらに備える
    ことを特徴とする請求項4記載の音声認識装置。
  6. 【請求項6】 前記発話解析結果に従って、機器を制御
    すると共に、機器からの応答に従って音声入力者に対し
    て不足情報を提示する対話管理部をさらに備えることを
    特徴とする請求項4記載の音声認識装置。
JP36141492A 1992-12-28 1992-12-28 音声認識方法および装置 Expired - Fee Related JP3277579B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP36141492A JP3277579B2 (ja) 1992-12-28 1992-12-28 音声認識方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP36141492A JP3277579B2 (ja) 1992-12-28 1992-12-28 音声認識方法および装置

Publications (2)

Publication Number Publication Date
JPH06202689A JPH06202689A (ja) 1994-07-22
JP3277579B2 true JP3277579B2 (ja) 2002-04-22

Family

ID=18473483

Family Applications (1)

Application Number Title Priority Date Filing Date
JP36141492A Expired - Fee Related JP3277579B2 (ja) 1992-12-28 1992-12-28 音声認識方法および装置

Country Status (1)

Country Link
JP (1) JP3277579B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019098038A1 (ja) 2017-11-15 2019-05-23 ソニー株式会社 情報処理装置、及び情報処理方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19533541C1 (de) * 1995-09-11 1997-03-27 Daimler Benz Aerospace Ag Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens
JP3523213B2 (ja) * 2001-03-28 2004-04-26 株式会社ジャストシステム コマンド処理装置、コマンド処理方法、及びコマンド処理プログラム
JP5519126B2 (ja) * 2008-06-27 2014-06-11 アルパイン株式会社 音声認識装置及び音声認識方法
CN108847237A (zh) * 2018-07-27 2018-11-20 重庆柚瓣家科技有限公司 连续语音识别方法及***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019098038A1 (ja) 2017-11-15 2019-05-23 ソニー株式会社 情報処理装置、及び情報処理方法

Also Published As

Publication number Publication date
JPH06202689A (ja) 1994-07-22

Similar Documents

Publication Publication Date Title
EP0965978B9 (en) Non-interactive enrollment in speech recognition
US5333275A (en) System and method for time aligning speech
US7415411B2 (en) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
US20020111805A1 (en) Methods for generating pronounciation variants and for recognizing speech
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
EP2048655A1 (en) Context sensitive multi-stage speech recognition
JP2005258443A (ja) 発音グラフを使用して新しい単語の発音学習を改善すること
WO2007055233A1 (ja) 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
JPH073640B2 (ja) 音声パタンテンプレ−トを発生する装置及び方法
JPH06214587A (ja) 事前指定ワードスポッティングサブシステム及び事前ワードスポッティング方法
US20020152068A1 (en) New language context dependent data labeling
JPH10504404A (ja) 音声認識のための方法および装置
JP3277579B2 (ja) 音声認識方法および装置
JP3058125B2 (ja) 音声認識装置
Batlouni et al. Mathifier—Speech recognition of math equations
EP0508225A2 (en) Computer system for speech recognition
JPH08263092A (ja) 応答音声生成方法および音声対話システム
JP2004021207A (ja) 音素認識方法、音素認識装置および音素認識プログラム
Syadida et al. Sphinx4 for indonesian continuous speech recognition system
JP2005157166A (ja) 音声認識装置、音声認識方法及びプログラム
JP3110025B2 (ja) 発声変形検出装置
Delić et al. A Review of AlfaNum Speech Technologies for Serbian, Croatian and Macedonian
JP2731133B2 (ja) 連続音声認識装置
Raj et al. Design and implementation of speech recognition systems
JP3091623B2 (ja) ヒドン・マルコフ・モデルの学習方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20020115

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080215

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090215

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100215

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100215

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110215

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120215

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees