JP2000242293A - 音声認識装置のための方法 - Google Patents

音声認識装置のための方法

Info

Publication number
JP2000242293A
JP2000242293A JP2000036105A JP2000036105A JP2000242293A JP 2000242293 A JP2000242293 A JP 2000242293A JP 2000036105 A JP2000036105 A JP 2000036105A JP 2000036105 A JP2000036105 A JP 2000036105A JP 2000242293 A JP2000242293 A JP 2000242293A
Authority
JP
Japan
Prior art keywords
state
frame
frames
memory
pronunciation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000036105A
Other languages
English (en)
Inventor
Jeffrey Arthur Meunier
ジェフリー・アーサー・ミュニア
Daniel Charles Poppert
ダニエル・チャールズ・ポパート
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions Inc
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of JP2000242293A publication Critical patent/JP2000242293A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01DSEPARATION
    • B01D35/00Filtering devices having features not specifically covered by groups B01D24/00 - B01D33/00, or for applications not specifically covered by groups B01D24/00 - B01D33/00; Auxiliary devices for filtration; Filter housing constructions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01DSEPARATION
    • B01D2201/00Details relating to filtering apparatus
    • B01D2201/31Other construction details
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B65CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
    • B65FGATHERING OR REMOVAL OF DOMESTIC OR LIKE REFUSE
    • B65F1/00Refuse receptacles; Accessories therefor
    • B65F1/14Other constructional features; Accessories

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】 【課題】 より小さなメモリを利用してHMMを追跡す
るのに要するトレースバック情報を格納すること。 【解決手段】 本発明を使用することが可能な装置(1
00)は、発音音声の信号表現を生成する音声認識シス
テム(204,206,207,208)を備える。発
音音声は、複数のフレーム表現(Ft)に分割される。
各フレームは調整アルゴリズムを利用して各状態(S1
−S5)に割り当てられる。フレームから状態への割当
を表わす経路は、各状態に対する状態遷移を区別する状
態遷移種別を利用してメモリ内に格納される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は一般に音声認識に関
し、特に、音声認識システム用のトレースバック・ラテ
ィス情報(traceback lattice information)を格納する
方法に関する。
【0002】
【従来の技術および発明が解決しようとする課題】スピ
ーカを利用する音声認識システムでは、そのシステムを
利用する際に役立つような語彙ワード(vocabulary wor
d)をユーザが登録しなければならない。語彙「ワード」
は、発音される単独のワードまたは短いフレーズとする
ことも可能であり、特定用途に依存して選択された語彙
ワードとすることも可能である。例えば、携帯無線電話
機用の音声認識では、頻繁に発呼する人の名前と場所
(例えば「フレッド氏の事務所」)、またはユーザ・インタ
ーフェースで通常利用可能な頻繁に使用される機能に関
する命令(例えば「バッテリ・メータ」、「メッセージ」、
「電話ロック(phone lock)」)等をユーザが提供する必要
がある。
【0003】このような登録手続において、音声認識シ
ステムはユーザの入力に応答して各語彙ワードに対する
代表的なテンプレートを引き出す。いくつかのシステム
では、このテンプレートは、一連の複数の状態より成る
隠れマルコフ・モデル(HMM: hidden Markov Model)によ
って表現される。各状態は発音音声(speech utterance)
の有限部分を表現し、この場合における発音音声は1以
上のワードより成る「語彙ワード」として使用される。
HMMの各状態の統計的な表現は、ユーザにより発せられ
た特定の語彙ワードに対する1以上の登録音声サンプル
を利用して計算される。これは、フレームから状態への
割当(フレーム-状態割当)を通じて行われる。このよう
な状態割当は、トレーニング動作モードおよび音声認識
動作モードの両者に対して行われる。特に、割り当てら
れた状態を利用してトレーニング・モードでモデルを生
成し、このモデルは音声認識モードにおける比較参照と
して利用される。音声認識動作モードにおける入力音声
の割当を利用して、スコア情報(score information)を
生成し、その入力音声を格納された参照モデルと比較す
る。
【0004】フレームから状態への音声の調整を行うた
めに、ビタビ・アルゴリズムのような割当アルゴリズム
が利用される。発音音声のモデルへの適合性を改善する
調整アルゴリズムを利用して、語彙ワード発音の各フレ
ームをそのモデルの個々の状態に割り当てる。このよう
な調整を行うことにより、各状態に対する統計的な表現
を改善することが可能になる。
【0005】フレーム割当にあっては、音声フレームと
そのモデル内の状態との適切な適合性を見出すことによ
り、ある「経路(path)」が定められる。これを行うため
HMMの各状態に対して、ある種の計算がフレームごとに
実行される。この計算の一部分は、フレーム「t」まで音
声が観測されるとすれば、フレームt-1において所与の
状態に導く状態の内どれが最適であったかを調べる。完
全に連結された(fully connected)HMMの場合、任意の状
態が任意の他の状態に遷移することが可能である。この
ため、各状態に至るN個の経路が存在し得る(Nは状態の
数)。
【0006】この手法を利用すると、割当アルゴリズム
中に、モデル内の各状態にマッピング(map)される音声
フレームがどれであるかを追跡する必要がある。このこ
とは、既存の手法を利用すると、巨大なメモリを要する
ことを意味する。従来の手法ではトレースバック行列(t
raceback matrix)と呼ばれる配列(array)を利用して、
フレームごとに情報を格納し、各状態の最適経路を調べ
ている。このため通常はN*Tの大きさの配列が必要とな
り、ここでNはそのモデルにおける状態数であり、Tは発
音音声におけるフレームの最大数である。Nが20に等し
くTが300に等しいような場合は珍しくはないので、上記
の手法で実効すると6000ワードのメモリが必要になる。
【0007】極めて小さなランダム・アクセス・メモリ(R
AM)が利用可能であるに過ぎない無線通信装置にような
携帯装置において、スピーカを利用してトレーニング・
アルゴリズムを実行するには、トレースバック情報を格
納するために使用する手法が、必要とするメモリを小さ
くする必要がある。したがって、より小さなメモリを利
用して、HMMを追跡するのに要するトレースバック情報
を格納する方法が望まれている。
【0008】
【発明の実施の形態】本願によれば音声認識のためのト
レースバック行列の更新および格納に関する手法が開示
される。スピーカを利用する登録手続において、ユーザ
は、登録されるべき発音音声の1以上の反復したものを
提供する。これらの発音の各々は、フレーム調整手続を
利用して既存の隠れマルコフ・モデルに合わせられる。
この手続を実行すると、各状態およびフレームに対する
遷移種別を格納することにより、発音音声における短期
解析フレームとモデルの状態との間の関連性を効率的に
登録することが可能になる。
【0009】図1は本発明で有効に利用可能な装置10
0が描かれている。装置100は説明の便宜上携帯用無
線電話機として描かれているが、コンピュータ、携帯用
ディジタル支援装置その他の音声認識を有効に行うこと
が可能な装置とすることも可能であり、特に、音声認識
システムにおけるメモリ効率に配慮する装置とすること
が可能である。図示されている無線電話機は、アンテナ
106に結合された送信機102および受信機104を
備える。送信機102および受信機104は、通話コー
ルの処理を行う通話コール・プロセッサ108に結合さ
れる。通話コール・プロセッサ108は、ディジタル信
号プロセッサ(DSP)、マイクロプロセッサ、マイク
ロコントローラ、プログラム可能な論理装置もしくはこ
れらの組み合わせその他の適切なディジタル回路を利用
して構築することが可能である。
【0010】通話コール・プロセッサ108はメモリ1
10に結合される。メモリ110は、RAM、電気的に
消去可能な読み出し専用メモリ(EEPROM)、読み
出し専用メモリ(ROM)、フラッシュROM等のメモ
リまたはこれらの組み合わせとすることが可能である。
メモリ110は、音声認識処理を含む通話コール・プロ
セッサ108の処理動作を支援し、電気的に変更可能な
メモリを含み、以下に詳述する状態遷移経路メモリを支
援する。装置の動作プログラムを格納するためにROM
を備えることも可能である。
【0011】音声回路112は、マイクロフォン114
から通話コール・プロセッサ108にディジタル化され
た信号を供給する。音声回路112は、通話コール・プ
ロセッサ108からのディジタル信号に応答して、スピ
ーカ116を駆動する。
【0012】通話コール・プロセッサ108は表示プロ
セッサ120に結合される。この表示プロセッサは、装
置100が付加的なプロセッサ支援を必要とする際の選
択的なものである。特に、表示装置120は表示制御信
号をディスプレイ126に供給し、キー124から入力
を受ける。表示プロセッサ120は、マイクロプロセッ
サ、マイクロコントローラ、ディジタル信号プロセッ
サ、プログラム可能な論理装置またはこれらの組み合わ
せ等により構築することが可能である。メモリ122は
表示プロセッサに結合され、その中のディジタル論理を
支援する。メモリ122は、RAM、EEPROM、R
OM、フラッシュROMまたはこれらの組み合わせ等に
より構築することが可能である。
【0013】図2を参照すると、マイクロフォン114
から受信した音声信号は、音声回路112のアナログ・
ディジタル変換器202においてディジタル信号に変換
される。当業者であれば、あらわに図示されてはいない
が、音声回路がフィルタ処理のような付加的な信号処理
を行うであろうことを見出すであろう。通話コール・プ
ロセッサ108は、マイクロフォン114によるアナロ
グ信号出力の処理済ディジタル信号表現に対して、特徴
抽出(feature extraction)機能204を実行し、ユーザ
の発音音声を表現する一組の特徴ベクトル(feature vec
tor)を生成する。特徴ベクトルは短期解析窓(short tim
e analysis widow)の各々について生成される。短期解
析窓は、図示されている例では20msのフレームであ
る。このよに、フレーム当たり1つの特徴ベクトルが存
在する。プロセッサ108はこの特徴ベクトルを利用し
て音声認識206またはトレーニング207を行う。
【0014】トレーニング・モードにあっては、発音音
声の特徴ベクトルを利用して、メモリ208に格納され
るHMM形式のテンプレートを生成する。音声認識モー
ドにあっては、入力音声を表現する特徴ベクトルは、メ
モリ208内に格納された語彙ワードのテンプレートと
比較され、ユーザが何と言ったかを調べる。このシステ
ムは、最も適合するもの、一組の最適なもの、あるいは
全く合致しないものを選択的に出力することが可能であ
る。メモリ208はメモリ110の不揮発性メモリ部で
あることが好ましく、たとえばEEPROMまたはフラ
ッシュROM等とすることが好ましい。ここで使用され
ているように「ワード」は、「ジョン・ドウ(John Do
e)」のような1以上のワード、または「コール(call)」
のような単独のワードとすることが可能である。
【0015】先に概説したように、メモリ208に格納
される語彙ワードはトレーニング・モードで生成され
る。たとえば、格納された各語彙ワードは、対応する特
徴ベクトルより成る発音音声U1およびU2(図3)の2
つのトレーニング信号から夫々最初に導出される。発音
音声U1は、話者がトレーニング中に特定のワードを喋
った第1時刻において格納された信号を表現する。発音
音声U2は、話者がトレーニング中に特定のワードを喋
った第2時刻において格納された信号を表現する。図示
した例では、発音音声U1は発音音声U2とは異なる長
さのものである。当業者であればより長いまたはより短
い発音音声を利用することが可能であることを認識する
であろう。
【0016】各フレームは同一の長さを有する一方、発
音音声U1およびU2は異なる長さを有するので、各発
音音声が複数のフレームにより表現される場合、異なる
長さを有する発音音声U1およびU2は異なるフレーム
数を有するであろう。複数のフレームFtが1つの発音
音声を成す。一般に発音音声は「Ft」として言及され、
「t」は1からTまでであるが、図3における記号に関し
ては、発音音声の各フレームはFabの記号で記述され
ており、ここでaは発音音声番号であり、bはフレーム
番号である。特に、発音音声U1は10個のフレーム、
すなわちF11,F12,F13,F14,F15,F
16,F17,F18,F19およびF110を有す
る。発音音声U2は12個のフレーム、すなわちF2
1,F22,F23,F24,F25,F26,F2
7,F28,F29,F210,F211およびF21
2を有する。各フレームは例えば20ミリ秒の特徴音声
より成る。
【0017】特徴ベクトルは従来の手法に従って生成さ
れる。例えば特徴ベクトルは、A/D変換器202(図
2)の出力から生成されるケプストラル(cepstral)およ
びデルタ−ケプストラル特徴より成る。
【0018】図3を参照すると、先ず初めに、発音音声
U1のフレームF11,F12および発音音声U2のF
21,F22から状態1(S1)が形成される。これらの
フレーム値を利用して、状態1の統計的表現より成るパ
ラメータの計算の全部または一部を最初に行う。好適実
施例にあっては、統計的表現は発音音声U1および発音
音声U2からのフレームの平均である。こうして、状態
1は発音音声U1のフレームF11,F12および発音
音声U2のF21,F22の平均に初期設定される。当
業者であれば、このような状況において分散(variance)
を含めることも認識するであろう。他の状態の統計的表
現も生成される。第2状態S2は、発音音声U1のフレ
ームF13,F14および発音音声U2のフレームF2
3,F24の値の平均である。同様に状態S3は、発音
音声U1のフレームF15,F16および発音音声U2
のフレームF25,F26の値の平均である。状態S4
は、発音音声U1のフレームF17,F18および発音
音声U2のフレームF27,F28,F29の値の平均
である。
【0019】先に例示したように、U2の余分な2つの
フレームは、最後の2つの状態に割り当てられている。
第2の発音音声が1つの余分なフレームのみを有する場
合、最後の状態にのみ余分なフレームが与えられるであ
ろう。第2の発音音声が3つの余分なフレームを有する
場合、最後の3つの状態に余分なフレームが夫々割り当
てられる。同様に、第1の発音音声が例えば4つの余分
なフレームを有する場合、最後の4つの状態に余分なフ
レームが夫々割り当てられる。発音音声の一方が他方の
ものより5つ以上フレームを有する場合、各状態は、よ
り多くのフレームを有する発音音声から3つのフレーム
を受け取り、少ないフレームを有する発音音声から2つ
のフレームを受け取る。
【0020】上記のフレームの割当は、各状態にフレー
ムがどのようにして最初に割り当てるか、および状態の
統計的表現がどのようにして形成されるかの例を与える
ものである。しかしながら、当業者であれば、状態の初
期割当および状態を統計的に表現することの両者に対し
て様々な他の手法が存在し、本発明が上記の手法に限定
されないことを認識するであろう。
【0021】例えば、発音音声の長さによらず5つの状
態を利用することも可能である。当業者であれば、任意
の状態数を利用することが可能であり、各発音音声に対
して10以上の状態を利用することも可能であることを
認識するであろう。さらに、発音音声の長さによらず状
態数を固定し、または発音音声の長さに依存して状態数
を変更させることも可能であろう。以下、長さによらず
発音音声に対して5つの状態を利用するシステム例につ
いて説明する。
【0022】状態S1ないしS5が発音音声U1および
U2からのフレームの統計から生成されると、隠れマル
コフ・モデル(HMM)が生成される。通話コール・プロセ
ッサ108は調整アルゴリズムを利用して、生成された
HMMの状態を通じて各発音音声を走らせる。この調整
は、各状態の統計的表現を再評価するために使用するこ
とが可能である。特に、調整アルゴリズムは、考察され
る各経路についてのスコア(score)に基づいて任意の地
点から戻る最適経路を調べるために動作し、このことは
図4に関連して一般的に説明される。ここで使用されて
いるように、ある地点は、格子(lattice)400におけ
るフレームおよび状態の位置である。
【0023】当業者であれば、格子400(図4)は8つ
のフレームについて状態1ないし5から戻る総ての経路
を示していることを認識するであろう。更なる限定は、
各フレームが、先行するフレームと同一の状態または先
行するフレームの状態の直後の状態のいずれかに割り当
てられなければならないことである(状態を飛び越すこ
とはできない。)。このことは、音声認識システムにお
けるフレームから状態への割当に適合するものであり、
データ経路を記録する必要のあるトレースバック情報量
を著しく減少させるものである。モデル内における状態
から状態への可能な経路に対するこのような制限は、そ
のモデルに対して発音音声の音声事象に対する順序的性
質を良好に反映させることに寄与する。一般に、HMM
状態遷移は、図4に示されるように左側から右側である
ように制限される。特定の状態nへの許容可能な経路
は、その状態から来るもの(SnからSnへの「自己ル
ープ」)または先行する状態から来るもの(S(n-1)から
Snへの単一状態遷移)の何れかである。図8は左から
右への飛び越し禁止HMMを図示する。このようなHM
Mの構成は、多くの音声認識処理に対して効果的であ
る。
【0024】図4の格子400にあっては、状態遷移の
種別が、状態間で許容される各経路に関連している。自
己ループに対して状態遷移種別1が割り当てられ、状態
変化(を伴なうもの)に対して状態遷移種別0が割り当て
られる。このモデルにおいて飛び越し状態(skip state)
を表現することも下のであるが、1ビットでは3以上の
状態遷移を区別できないので、2以上のビットの状態遷
移種別識別子を必要とする。いずれにしても、ビタビ・
アルゴリズムのような調整アルゴリズムを用いて計算さ
れた経路情報を記録するためにnビット・シンボルの配
列を利用し、状態遷移種別を利用することは、各経路を
格納するのに必要なメモリのサイズを著しく減少させる
ことが可能である。当業者であれば、従来のトレースバ
ック行列を格納する手法では先行する状態を区別するた
めに8ないし16ビットを利用していたのに対して、本
願によればnは小さく、1または2ビット程度の大きさ
に過ぎないことを認識するであろう。
【0025】フレーム5(図4の水平軸上の5番目)に対
してビタビ・アルゴリズムは、フレーム5における各状
態(状態1(S1)、状態2(S2)、状態3(S3)、状態
4(S4)、状態5(S5))から戻る最適経路を調べる(す
なわち、最良のスコアを生成する状態の各々から戻る経
路)。特に、このアルゴリズムは、地点Aから戻る経路
に対するスコアまたは確率を考慮し、これは最初の5つ
の全フレームに対して状態1を介して経路が進む確率を
表現する。現在のフレームは、先行するフレームと同一
の状態または先行するフレームの状態より1状態高いも
ののいずれかであるという条件により、このようなこと
が必要とされる。
【0026】地点Bに対してアルゴリズムは、地点Gを
経由して地点Bに至る経路に関するスコアおよび地点H
を経由して地点Bに至る経路に関するスコアを生成す
る。地点Cに対してビタビ・アルゴリズムは、地点Hを
経由して地点Cに至る経路に関するスコアおよび地点I
を経由して地点Cに至る経路に関するスコアを生成す
る。地点Dに対してビタビ・アルゴリズムは、地点Iを
経由して地点Dに至る経路に関するスコアおよび地点J
を経由して地点Dに至る経路に関するスコアを考察す
る。地点Eに対してビタビ・アルゴリズムは、地点Jを
経由して地点Eに至る経路に関するスコアおよび地点K
を経由して地点Eに至る経路に関するスコアを生成す
る。スコア計算の後、各経路に対して最高のスコアを生
成する経路の遷移種別が、フレーム5の各状態への経路
として保存される。
【0027】本発明は左から右へのモデルに適用可能で
あり、任意状態への最大遷移数が2nであることを許容す
るが、本実施例では、自己ループおよび単一の状態遷移
の2つの遷移種別のみが許容される。ここで、トレース
バック行列メモリは、境界フラグの配列500(図5)で
あり、これは2つの可能な遷移の内いずれが採択された
かを記録する。可能な経路数が、状態の飛び越しが禁止
された隣接フレームに制限されており、時間的に遅れた
フレームは先行するフレームの状態より低い(下側の)状
態に位置することができないような場合に、本実施例は
特に有益である。
【0028】図5のメモリ配列は、5つの可能な状態を
有する8つのフレームについて行列を介する経路を表現
する。Xの位置は、考慮を要しない部分を表現する。フ
レーム8の状態S5に至る経路について、右上隅の0
は、生き残った経路(survivorpath)がフレーム7の状態
S4を経由して通ったことを示す。状態S4のフレーム
7における0は、フレーム6の状態S3を経由してその
経路が通ることを示す。フレーム6の状態3における0
は、フレーム5の状態S2を経由してその経路が通るこ
とを示す。フレーム5の状態S2における1は、フレー
ム4の状態S2を経由してその経路が通ることを示す。
フレーム4の状態S2における0は、フレーム3の状態
S1を経由してその経路が通ることを示す。この経路は
最初の2つのフレームに対して状態S1を経由して通
る。フレーム8の状態S4,S3,S2,S1の各々へ
の生き残り経路も同様に、トレースバック(追跡)するこ
とが可能である。このようにして、メモリ110のRA
Mに格納された2値状態を利用して調整アルゴリズムの
生き残り経路を表現することが可能である。
【0029】図6に関連してメモリ110におけるプロ
セッサ108の格納処理を説明する。最初に、ブロック
602において示されるように、第1フレームの状態が
設定される。第1状態は1に設定され、フレーム1に対
する状態2ないし5は、考慮を要しないXに設定され、
可能な状態ではないものとして無視される。ブロック6
04に示されるように、その後フレームのカウンタが2
に設定され、状態のカウンタが1に設定される。
【0030】現在のフレームおよび状態に対して(図4
の格子400におけるある地点)、プロセッサ108
は、ブロック606に示されるように、自己ループに対
するスコアを計算し、これは先行するフレームの状態S
Nを経由して現在のフレームの状態SNに至る経路であ
る。ブロック608に示されているように、先行するフ
レームの状態SN-1を経由して現在のフレームのSNに
至る経路であるところの状態遷移についてもスコアが導
出される。
【0031】ステップ610において、プロセッサ10
8は自己ループまたは状態遷移(を伴なうもの)がより良
いスコアを有する否かを調べる。自己ループがより良い
スコアを有する場合、ブロック612に示されるよう
に、現在の状態およびフレーム(すなわち現在のフレー
ムの状態SN)に対して状態遷移種別1がメモリ110
のRAM内に格納される。そうでなければ、ブロック6
14に示されるようにメモリ110のRAM内に0が格
納される。
【0032】ブロック616に示されるように、状態カ
ウンタがインクリメント(増分)される。判定ブロック6
18において、プロセッサは、現在のフレームの状態毎
に遷移種別が計算されたか否かを調べる。最後の状態が
計算されていない場合、プロセッサはステップ608に
戻り、ブロック606で始まる次の状態遷移種別を計算
する。
【0033】判定ブロック616において現在のフレー
ム中の最後の状態が考察されると、プロセッサ110は
フレーム・カウンタをインクリメントし(増分させ)、ブ
ロック620で示されるように状態カウンタを1にリセ
ットする。その後プロセッサは、考察したフレームが最
終フレームであったか否かを調べる。もしそうでなけれ
ば、プロセッサはステップ606に戻り、次のフレーム
のための状態割当処理を開始する。
【0034】ブロック622において、現在考察されて
いるフレームが発音音声中の最後のものであった場合、
プロセッサ110は最良のスコアを有する経路を、モデ
ルがトレーニングされている場合には状態割当モデルに
変換する。音声認識する際にはそのスコアのみが使用さ
れるであろう。HMMへの変換は、ブロック702に示
されるように、最終状態の最終フレームから逆向きにそ
の状態に対する遷移形式を出力することにより開始され
る。ブロック704において、プロセッサ110は、そ
の遷移形式が自己ループであるか否かを調べる。自己ル
ープである場合、ブロック708に示すように、先行す
るフレームの状態は現在フレームの状態と同じ状態に設
定される。もしそうでなければ、先行するフレームの状
態は、ブロック706に示されるように、より低い次の
状態に設定される。
【0035】ステップ709の状態休止期間(state dwe
ll time)または持続時間において、その休止期間中の追
跡を要する場合に、カウンタをインクリメントすること
も可能である。この選択的なカウントが提供されると、
ステップ706は1つの第1期間における状態休止期間
カウンタを作動させ、状態が入力され、カウンタは各状
態に対して提供されるであろう。
【0036】ステップ710において、プロセッサ10
8はフレーム・カウンタをデクリメントする(カウンタ
値を減少させる)。ステップ704,706,708に
おいて把握された先のフレーム状態は、ブロック712
に示されるように、その先行するフレームに対して格納
され、その地点に対する状態遷移種別、フレームおよび
状態が出力される。フレームの状態出力が第1フレーム
でない場合、プロセッサは判定ブロック704に戻る。
ブロック714において第1フレーム状態が格納された
場合、ブロック716に示されるように状態割当モデル
が完了する。この状態割当モデルは、フレームの特徴を
適切な状態に割り当てたものより成る。この情報はトレ
ーニングのために格納することも可能であり、また、格
納されたモデルを更新するために使用することも可能で
ある。
【0037】第1次元の状態Sおよび第2次元のフレー
ムFの2次元配列Lについて、疑似コード処理を説明す
る。この配列のサイズはNxTである。また、シンボル
1を同一状態遷移(自己ループ)を表現するために使用
し、シンボル0を先行状態からの遷移を表現するために
使用する。2つの可能なシンボルのみが存在するので、
個々のビットはそれらを格納するために利用することが
可能である。ビタビ・アルゴリズムを実行する際、各遷
移を記録するために以下に示すアルゴリズムを利用する
ことが可能である: 総ての音声フレーム(t=1〜T)に対して以下の処理を
繰り返す 総てのHMM状態(s=1〜N)に対して以下の処理を繰
り返す 状態sに対する最良の経路が状態sからのものである場
合、L[s][t]=1とし、そうでなければ(最良の経路
は先行する状態からである)、L[s][t]=0とする。
トレーニングの間、調整の目的は一般に発音音声の各フ
レームの状態割当を見出すことである。その状態割当を
配列A[t]に記録することを要する場合、この割当は以
下のようにして遷移行列Lから復元することが可能であ
る: 状態sを最終状態Nに初期化する 総ての音声フレームに対してその終端から開始して(t
=T〜1)以下の処理を行う A[t]=s L[s][t]=0である場合はs=s-1とする。先に述べ
たように、上記のアルゴリズムは、状態の飛び越しが禁
止されている簡略化されている場合に良好にはたらく。
状態の飛び越しが許容されている場合は、配列Lに対し
て他のシンボルを付加することを要し、その配列に対す
る格納条件およびブロック606および608で行われ
るようなスコア計算数を増加させる。
【0038】調整過程において、特定の状態が占有され
ていたフレーム数を追跡することも有益である。この情
報を利用して、状態持続時間のペナルティを割り当てる
ことも可能である。このような技術については、本願の
優先権主張基礎出願と同日に米国出願されたDaniel Pop
pertによる"METHOD OF SELECTIVELY ASSIGNING A PENAL
TY TO A PROBABILITY ASSOCIATED WITH A VOICE RECOGN
ITION SYSTEM"と題する米国出願(弊社内管理番号CS1010
4)がある。持続時間情報は、配列L内で完全に表現され
る。状態sが時刻tにおいて占有していたフレーム数
(D[s][t]と言及する)は、以下のようにして見出すこ
とが可能である: D[s][t]を1に初期化する L[s][t-D[s][t]]=1であればD[s][t]をインク
リメントする。上述したような音声認識システムは、単
独のビット・フラグによる単純な配列を利用し、トレー
スバック情報のメモリ痕跡(memory footprint)を減少さ
せることが可能である。図4に示されるような状態の飛
び越しが禁止されているHMMの簡潔な事例を主に説明
したが、本発明をメモリ・コストの増加した一層一般的
な事例に拡張することも可能であろう。
【0039】図6に示すフローチャートは、ブロック6
08ないし614を図9に示すものに置き換えることに
よって変形することも可能である。この場合において、
飛び越しスコアPskipはブロック609で計算される。
ブロック610において自己ループが最良のスコアを有
するものと認識した場合は、ステップ614において、
11(2進ビット)がRAM208に格納される。ブロ
ック610において「NO」であった場合、プロセッサ1
08はPDがPskipより良好であるか否かを調べる。良好
なスコアに関連するものと判断した場合は、ステップ6
14において00(2進ビット)がRAM208に格納
される。状態の飛び越しが良好なスコアを有するものと
判断した場合は、ステップ613で示されるように10
(2進ビット)がRAMに格納される。図7に示すフロ
ーは、図10に示すようなステップ705および707
をステップ704に追加することによって変形すること
も可能である。この場合、ステップ704は自己ループ
であるところの遷移種別11を探索する。遷移種別が自
己ループでない場合、プロセッサはステップ705にお
いて単一の状態遷移を示す00であるか否かを調べる。
もしそうでなければ、プロセッサ108は、ステップ7
07で示されるように、現在フレームより2状態低いも
のとして先行フレームを認識する。その他の場合はプロ
セッサはそれを単独の遷移として取り扱う。
【0040】当業者であれば、この種の処理過程を拡張
して更なる状態飛び越しを取り扱うことも可能であろ
う。各状態/フレームに対して格納される実際のビット
数は、許容される飛び越し状態数に依存するであろう。
【0041】以上本発明を特定の実施例に関連して説明
してきたが、これらは例示に過ぎず、当業者であれば本
発明の精神から逸脱することなく様々な変形や改良を施
すことが可能であろう。これまでセルラ無線電話のよう
な携帯用無線装置を例にとって本発明を説明してきた
が、本発明はページャ、電子組織化装置(electronic or
ganizer)、コンピュータおよび電話装置その他の音声認
識を行う装置に広く適用することが可能である。
【図面の簡単な説明】
【図1】 無線電話機の概略ブロック図を示す。
【図2】 図1による無線電話機内の音声認識回路用の
入力回路の概略示す。
【図3】 2つの関連する発音音声セグメントからフレ
ームへの左から右への隠れマルコフ・モデル(left-right
Hidden Markov Model)を示す。
【図4】 飛び越し遷移を許容しない左右モデルにおけ
る総ての可能な状態遷移経路に関連するトレースバック
格子を示す。
【図5】 状態遷移型を利用して記録されるトレースバ
ック経路に対する状態遷移経路のメモリ配置を示す。
【図6】 調整アルゴリズムにおける情報格納のための
フローチャートを示す。
【図7】 最適経路のためのフレームから状態への調整
を行うフローチャートを示す。
【図8】 図4に対応する左から右への飛び越し禁止HM
Mを示す。
【図9】 図6のフローチャートで使用される状態飛び
越しのためのフローの一部を示す。
【図10】 図7のフローチャートで使用される状態飛
び越しのためのフローの一部を示す。
【符号の説明】
100 音声認識を行う装置 102 送信機 104 受信機 108 通話コール・プロセッサ 110 メモリ 112 音声回路 114 マイクロフォン 116 スピーカ 120 表示プロセッサ 122 メモリ 124 キー 126 ディスプレイ 202 アナログ・ディジタル変換器 204 特徴抽出アルゴリズム 206 音声認識 207 トレーニング 208 メモリ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ダニエル・チャールズ・ポパート アメリカ合衆国イリノイ州ウッドストッ ク、アップルウッド・レーン2345

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 音声認識装置のための方法であって:発
    音音声を受信する段階;前記発音音声の信号表現を生成
    する段階;前記発音音声の信号表現を複数のフレームに
    分割する段階;調整アルゴリズムを利用して各フレーム
    を各状態に割り当てる段階;および各状態に対して、各
    状態への状態遷移を区別する状態遷移種別をメモリに格
    納することにより、フレームから状態への割当を表現す
    る経路を格納する段階;より成ることを特徴とする方
    法。
  2. 【請求項2】 前記メモリが各状態に対してその状態に
    対する最良の経路を格納することを特徴とする請求項1
    記載の方法。
  3. 【請求項3】 前記状態遷移種別が2進信号で表現され
    ることを特徴とする請求項1記載の方法。
  4. 【請求項4】 前記2進信号が1つの論理ビットである
    ことを特徴とする請求項3記載の方法。
  5. 【請求項5】 前記状態遷移種別が複数ビット信号によ
    り表現されることを特徴とする請求項1記載の方法。
  6. 【請求項6】 更に、状態割当記録を作成するために前
    記状態遷移種別を利用してフレームから状態への割当記
    録を生成する段階より成ることを特徴とする請求項1記
    載の方法。
  7. 【請求項7】 フレームから状態への割当記録が、最終
    フレームにおけるものから開始し、前記状態遷移種別を
    利用して経路を追跡することにより生成されることを特
    徴とする請求項1記載の方法。
  8. 【請求項8】 更に、状態持続時間を復元する段階より
    成ることを特徴とする請求項6記載の方法。
  9. 【請求項9】 前記状態持続時間が前記状態遷移情報か
    ら導出されることを特徴とする請求項8記載の方法。
  10. 【請求項10】 前記状態持続時間が、各状態に対する
    自己ループ数をカウントし、前記状態割当記録を復元す
    るための行列を追跡することにより、導出されることを
    特徴とする請求項8記載の方法。
JP2000036105A 1999-02-23 2000-02-15 音声認識装置のための方法 Pending JP2000242293A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US25755299A 1999-02-23 1999-02-23
US257552 1999-02-23

Publications (1)

Publication Number Publication Date
JP2000242293A true JP2000242293A (ja) 2000-09-08

Family

ID=22976749

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000036105A Pending JP2000242293A (ja) 1999-02-23 2000-02-15 音声認識装置のための方法

Country Status (6)

Country Link
JP (1) JP2000242293A (ja)
KR (1) KR100324453B1 (ja)
CN (1) CN1149532C (ja)
BR (1) BR0000894A (ja)
DE (1) DE10006937C2 (ja)
GB (1) GB2347254B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001084534A2 (en) * 2000-05-04 2001-11-08 Motorola Inc. Method of traceback matrix storage in a speech recognition system
JP4048492B2 (ja) * 2003-07-03 2008-02-20 ソニー株式会社 音声対話装置及び方法並びにロボット装置
DK2306457T3 (en) * 2009-08-24 2017-01-16 Oticon As Automatic audio recognition based on binary time frequency units
WO2011152575A1 (ko) * 2010-05-31 2011-12-08 주식회사 클루소프트 발음기관 애니메이션 생성 장치 및 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3215868A1 (de) * 1982-04-29 1983-11-03 Philips Patentverwaltung Gmbh, 2000 Hamburg Verfahren und anordnung zum erkennen der woerter in einer zusammenhaengenden wortkette
GB8527913D0 (en) * 1985-11-12 1985-12-18 Pa Consulting Services Analysing transitions in finite state machines
GB2209418B (en) * 1985-11-12 1989-10-11 Nat Res Dev Apparatus amd methods for analysing transitions in finite state machines

Also Published As

Publication number Publication date
DE10006937A1 (de) 2000-10-12
GB0004281D0 (en) 2000-04-12
KR100324453B1 (ko) 2002-02-27
GB2347254A (en) 2000-08-30
DE10006937C2 (de) 2003-02-13
BR0000894A (pt) 2000-09-12
CN1264890A (zh) 2000-08-30
CN1149532C (zh) 2004-05-12
KR20000071365A (ko) 2000-11-25
GB2347254B (en) 2001-08-22

Similar Documents

Publication Publication Date Title
US20220366897A1 (en) Contextual biasing for speech recognition
US11961513B2 (en) Low-power automatic speech recognition device
US5787396A (en) Speech recognition method
CN1760974B (zh) 用于标识至少一个语音单元的方法
US20140114661A1 (en) Methods and systems for speech recognition processing using search query information
US7676367B2 (en) Method of producing alternate utterance hypotheses using auxiliary information on close competitors
JPS62231995A (ja) 音声認識方法
WO2002095955A1 (en) Method of decoding a variable-length codeword sequence
US8532990B2 (en) Speech recognition of a list entry
US20050203737A1 (en) Speech recognition device
US20080201147A1 (en) Distributed speech recognition system and method and terminal and server for distributed speech recognition
JP2002268675A (ja) 音声認識装置
Zweig et al. Probabilistic modeling with Bayesian networks for automatic speech recognition.
JP4069715B2 (ja) 音響モデル作成方法および音声認識装置
JP2000242293A (ja) 音声認識装置のための方法
CN1145140C (zh) 有选择地把一罚值赋予语音识别***所伴随概率的方法
CN111128172B (zh) 一种语音识别方法、电子设备和存储介质
JP4442211B2 (ja) 音響モデル作成方法
Chatterjee et al. Connected speech recognition on a multiple processor pipeline
JP3049235B2 (ja) 複合的な文法ネットワークを用いる音声認識システム
JP3251005B2 (ja) 標準パターン作成方法
MXPA00001906A (es) Metodo de almacenamiento de matriz de referencia en un sistema de reconocimiento de la voz
Smith et al. Application of a sequential pattern learning system to connected speech recognition
JPS60118894A (ja) 音声認識装置
EP1297525A2 (en) Method of traceback matrix storage in a speech recognition system