JPH07104779A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPH07104779A
JPH07104779A JP5247186A JP24718693A JPH07104779A JP H07104779 A JPH07104779 A JP H07104779A JP 5247186 A JP5247186 A JP 5247186A JP 24718693 A JP24718693 A JP 24718693A JP H07104779 A JPH07104779 A JP H07104779A
Authority
JP
Japan
Prior art keywords
subword
learning
voice recognition
label
labels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5247186A
Other languages
English (en)
Inventor
Yoshiaki Noda
喜昭 野田
Akihiro Imamura
明弘 今村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP5247186A priority Critical patent/JPH07104779A/ja
Publication of JPH07104779A publication Critical patent/JPH07104779A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 学習不足を防止するとともに、音声認識時の
検索処理量を低減することができる音声認識方法を提供
する。 【構成】 「そうち」、「そーち」等のように、音響現
象のかな表記とサブワードとを一義的に対応させること
ができない音響現象を一義的に対応させるサブワードラ
ベルを定義し、このサブワードラベルに対応するHMM
(隠れマルコフモデル)に学習させ、このサブワードラ
ベルを用いて発声の曖昧性を吸収した音声認識を行う。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、隠れマルコフモデル
(以後、HMMと称す)を用いた音声認識方法に関す
る。
【0002】
【従来の技術】従来より、HMM(Hidden Markov Mode
l )を用いた音声認識方法において、音声による音響現
象を表現するHMMの単位として、例えば、音韻のよう
に、単語よりも小さな単位(以後、サブワードと称す)
を用いることにより、任意の語彙の音声認識を行うこと
ができる。
【0003】しかしながら、サブワードに対応する音声
データは、そのサブワードを含む単語や文を発声して得
られる音声から切り出す(以後、この作業をラベリング
と称す)ことによってしか得ることができず、多くの音
声データを用いて統計的な学習を必要とするHMMに基
づいた音声認識では、上記ラベリング作業に多大な時間
および労力を要するという問題があった。
【0004】この問題を軽減する手法として連結学習が
ある。連結学習は、文や単語に対応するHMMが、学習
用音声データに対応するサブワードのHMM(以後、サ
ブワードHMMと称す)を連結してなることを利用し、
サブワードの名称であるサブワードラベルの正確な存在
区間に関する情報を与えなくても、複数のサブワードを
含む文や単語に対応するHMMを一括して学習すること
により、各サブワードHMMに関する学習を行うことが
できるというものである。
【0005】このため、上記連結学習を用いた音声認識
方法では、サブワードラベルの存在区間を調べるための
ラベリング作業を省略でき、大量の音声データを用いる
学習を比較的容易に行うことができる。上記音声認識方
法では、学習される音声データは、所定のサブワード系
列を経て、当該データに対応するサブワードラベル列に
変換され、連結学習に用いられる。
【0006】
【発明が解決しようとする課題】ところで、上述した従
来の音声認識方法においては、連結学習に与えるサブワ
ードラベル列をかな表記から生成する場合、かな表記と
実際の発声音である音響現象とが錯綜し、学習不足とな
る場合がある。例えば、図1に示すように、かな表記で
「そうち」と表されている部分は、”s,o,u,c
h,i”というサブワードラベル列に変換されるが、話
者の癖などにより、「そーち」あるいは「そおち」と発
声される可能性もある。
【0007】また、氷(こおり)は”k,o,o,r,
i”と変換されるが、実際には、「こうり」,「こー
り」と発声される可能性もある。このように、かな表記
からサブワードラベル列への変換を行う際に、かな表記
だけではサブワードを一義的に決定できないという曖昧
性が存在する。従来の音声認識方法では、図2(a)に
示すように、音響現象とサブワードラベルとを1対1に
対応付けるため、かな表記と音響現象との間に錯綜が生
じると、似かよった音響現象が、異なったサブワードH
MMに割り当てられる。すなわち、発音の曖昧性によ
り、同一の音声データに対する学習が複数のHMMに分
散してしまい、学習不足の原因となることがあるという
問題がある。
【0008】また、上述したように、同一音声データに
対応するサブワードラベルが複数存在するという曖昧性
があると、この曖昧性を考慮した音声認識を行う場合に
は、音声認識時に、複数のサブワードラベル全てを検索
する必要があり、その検索処理が増大するという問題も
ある。本発明は、上述した事情に鑑みてなされたもので
あり、学習不足を防止するとともに、音声認識時の検索
処理量を低減することができる音声認識方法を提供する
ことを目的とする。
【0009】
【課題を解決するための手段】本発明による音声認識方
法は、音響現象を隠れマルコフモデルで表現する単位と
して、単語より小なるサブワードが設定された音声認識
方法において、前記音響現象のかな表記と前記サブワー
ドとを一義的に対応させることができない音響現象を一
義的に対応させるサブワードモデルを構築することを特
徴としている。
【0010】
【作用】上記方法によれば、音響現象のかな表記とサブ
ワードとを一義的に対応させることができない曖昧な音
響現象を一義的に対応させるサブワードモデルが構築さ
れる。したがって、曖昧な音響現象全てを一つのモデル
で学習することができ、学習の為の音声データが複数の
サブワードモデルに分散することはない。また、発音の
曖昧性を吸収した音声認識時において検索すべきサブワ
ードモデル数が低減される。すなわち、学習不足が防止
されるとともに、音声認識時の検索処理量が低減され
る。
【0011】
【実施例】以下、図面を参照して、本発明の一実施例に
ついて説明する。図3は本発明の一実施例による音声認
識方法を適用した音声認識装置の機能構成を示す図であ
る。この図に示す音声認識装置において、1は、音声認
識処理を行う場合に必要となる各種定義を有する音声認
識環境定義、2は、サブワードを単位とするHMMを用
いた音声認識を行う音声認識処理であり、本実施例によ
る音声認識装置は、上記音声認識環境定義1に基づいて
音声認識処理2が作動し、音声認識処理を行う構成とな
っている。
【0012】音声認識環境定義1において、11は、特
徴ベクトル定義であり、音声の言語的な特徴を含む特徴
ベクトルを求めるための分析手法(例えば、LPC(Li
nearPredictive Coding)ケプストラム)を選択するた
めの情報、選択された分析手法により得られる各種パラ
メータの次元に関する情報を有する。また、12はサブ
ワード体系定義であり、各サブワードラベル、サブワー
ドラベルと音響現象とを対応付けるための情報を有す
る。
【0013】上記対応付けるための情報は、例えば、図
2(b)に示すように、かな表記で「おう」、「おお」
に対応するサブワードラベルとして”LOUL”を対応
させるというものであり、以下に例を示す定義情報によ
り、かな表記において曖昧性が残る部分を、一つのサブ
ワードラベルで表現することが可能になる。
【0014】LgL :/g/、 その鼻音化、それ
らの中間的な発声音 LgyL:/gy/、 その鼻音化、それらの中間的な
発声音 LwoL:/o/、 /wo/、 それらの中間的な
発声音 LOUL:/o//u/、 /o/と/u/の時間的な
融合、/oo/、 それらの中間的な発声
音 LEIL:/e//i/、 /e/と/i/の時間的な
融合、/ee/、 それらの中間的な発声
音 LIUL:/i//u/、 /i/と/u/の時間的な
融合、/y//uu/、 それらの中間的な発声
音 LXIL:/i/、 その無声化、それらの中間的な
発声音 LXUL:/u/、 その無声化、それらの中間的な
発声音 LPL :無音区間の有無
【0015】上記定義情報例において、例えば、サブワ
ードラベル”LOUL”は、発生音/o//u/、/o
u/、/oo/等に対応することを意味する。また、図
3の音声認識環境定義1において、13はHMM構造定
義であり、HMMの状態数や出力確率密度分布の表現方
法に関する情報を有する。
【0016】次に、音声認識処理2において、15は、
入力された音声(以後、入力音声と称す)を特徴パラメ
ータに変換する分析処理、16は、特徴パラメータと当
該パラメータに相当する言語的なサブワードラベル情報
を与えることにより、HMMパラメータ(後述する)を
推定する学習処理である。17は認識処理であり、学習
処理16により推定されたHMMパラメータと、分析処
理15より供給される特徴パラメータにより、入力音声
の認識を行う。
【0017】分析処理15において、21は、入力音声
を帯域制限してデジタルデータに変換するAD(Analog
to Digital )変換部、22は、AD変換部21から出
力されるデジタルデータから、入力音声に対応する特徴
パラメータを算出する特徴パラメータ計算部である。
【0018】また、学習処理16において、33は、サ
ブワード体系定義12で定義されたサブワードラベル
と、入力音声における当該ラベルの出現時間とを有する
ラベルデータである。23は初期学習部であり、ラベル
データ33と、特徴パラメータ計算部22から供給され
る特徴パラメータとに基づいて初期学習を行い、当該学
習に応じたHMMパラメータを出力する。
【0019】26は、入力音声のかな表記である学習用
かな表記文字列データ32を学習用ラベル列データ34
に変換するかな表記ラベル列変換部である。24は連結
学習部であり、初期学習部23から供給されるHMMパ
ラメータ、特徴パラメータ計算部22から供給される特
徴パラメータ、学習用ラベル列データ34に応じて連結
学習を行い、対応するHMMパラメータを出力する。こ
のHMMパラメータは、学習処理16により推定された
HMMの状態遷移確率、状態毎の出力密度分布等を表し
ており、HMMパラメータデータ31に格納される。
【0020】さらに、認識処理17において、27はか
な表記ラベル列変換部であり、サブワード体系定義12
に基づいて、発声の曖昧性を考慮した音声認識を行う際
に使用される「許容される文法」を表す認識用かな表記
文字列データ35を、認識用ラベル列データ36に変換
する。また、25は、認識用ラベル列データ36、特徴
パラメータ計算部22で算出された特徴パラメータ、H
MMパラメータデータ31に基づいて音声認識処理を行
う認識処理部であり、認識結果を出力する。
【0021】このような構成において、まず、分析処理
15について説明する。入力音声は、AD変換部21に
おいて帯域制限され、デジタルデータに変換される。こ
のデジタルデータは、特徴パラメータ計算部22に供給
され、ここで、特徴ベクトル定義11で定義された分析
手法、パラメータの次元に基づいた分析処理を施され
る。そして、入力音声に対応する特徴パラメータが算出
される。この特徴パラメータは、学習処理16および認
識処理17へ供給される。
【0022】学習処理16において、特徴パラメータは
初期学習部23および連結学習部24に供給される。初
期学習部23では、特徴パラメータと、ラベルデータ3
3とから、各サブワードラベル毎のHMMの初期学習を
行う。この初期学習部23では、学習アルゴリズムとし
て、Segmental k-means traininng procedure およびFo
rward-Backwardアルゴリズムが用いられる。これらの詳
細は、L.R.Rabiner, J.G.Wilpon, and B.H.Juang,”A
segumental k-means training procedure forconnected
word recognition”(AT&T Technical Journal:vol.65
pp.21-31, (1986))、および、中川聖一、「確率モデ
ルによる音声認識」(電子情報通信学会,(1988))に記
載されている。上述したように、初期学習部23におい
て、初期学習が行われ、HMMパラメータが求められ
る。
【0023】このHMMパラメータは、連結学習部24
に供給され、ここで、特徴パラメータ、学習用ラベル列
データ34とともに、連結学習に用いられる。連結学習
の詳細は、例えば、南、松岡、鹿野、「不特定話者連続
音声データベースによる連結学習HMMの評価」(電子
情報通信学会技術研究報告,SP91-113,(1992))に記載
されている。連結学習部24では、初期学習によって求
められたHMMパラメータが再推定され、HMMパラメ
ータデータ31が得られる。
【0024】一方、認識処理17の認識処理部25にお
いて、「許容される文法」が記述された認識用ラベル列
データ36と、HMMパラメータデータ31とに基づい
て、特徴パラメータ計算部22から供給された特徴パラ
メータに対応するサブワードラベル列の認識処理が行わ
れる。この認識処理で用いられるViterbi アルゴリズム
の詳細は、例えば、中川聖一、「確率モデルによる音声
認識」(電子情報通信学会,(1988))に記載されてい
る。
【0025】以上説明したように、発声の曖昧性を吸収
したサブワードラベルをサブワード体系定義12で定義
するため、かな表記からサブワードラベル列への変換を
容易に行うことができる。また、曖昧な音響現象全てを
一つのサブワードラベルで表すことができるため、学習
処理において、一つのサブワードラベルに対応した音声
データが複数のHMMに分散してしまうことがなく、大
量の学習を行うことができる。
【0026】さらに、曖昧な音響現象全てを一つのサブ
ワードラベルで表すことができるため、音声認識時にお
いて、発声の曖昧性を吸収した認識を行う場合には、従
来のように、例えば、発生音/ou/に対応するサブワ
ードラベルと、発声音/oo/に対応するサブワードラ
ベルとの両方を許容する必要がなく、検索処理に係る計
算量を低減することができる。
【0027】
【発明の効果】以上説明したように、本発明によれば、
音響現象のかな表記とサブワードとを一義的に対応させ
ることができない曖昧な音響現象を一義的に対応させる
サブワードモデルが構築される。したがって、曖昧な音
響現象全てを一つのモデルで学習することができ、学習
の為の音声データが複数のサブワードモデルに分散する
ことはない。また、発音の曖昧性を吸収した音声認識時
において検索すべきサブワードモデル数が低減される。
したがって、学習不足を防止するとともに、音声認識時
の検索処理量を低減することができるという効果があ
る。
【図面の簡単な説明】
【図1】かな表記からサブワードラベル列への変換例を
示す図である。
【図2】かな表記と音響現象とサブワードラベルとの対
応関係を示す図である。
【図3】本発明の一実施例による音声認識方法を適用し
た音声認識装置の機能構成を示す図である。
【符号の説明】
1 音声認識環境定義 2 音声認識処理 11 特徴ベクトル定義 12 サブワード体系定義 13 HMM構造定義 15 分析処理 16 学習処理 17 認識処理 21 AD変換部 22 特徴パラメータ計算部 23 初期学習部 24 連結学習部 25 認識処理部 26,27 かな表記ラベル列変換部 31 HMMパラメータデータ 32 学習用かな表記文字列データ 33 ラベルデータ 34 学習用ラベル列データ 35 認識用かな表記文字列データ 36 認識用ラベル列データ

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 音響現象を隠れマルコフモデルで表現す
    る単位として、単語より小なるサブワードが設定された
    音声認識方法において、 前記音響現象のかな表記と前記サブワードとを一義的に
    対応させることができない音響現象を一義的に対応させ
    るサブワードモデルを構築することを特徴とする音声認
    識方法。
JP5247186A 1993-10-01 1993-10-01 音声認識方法 Pending JPH07104779A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5247186A JPH07104779A (ja) 1993-10-01 1993-10-01 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5247186A JPH07104779A (ja) 1993-10-01 1993-10-01 音声認識方法

Publications (1)

Publication Number Publication Date
JPH07104779A true JPH07104779A (ja) 1995-04-21

Family

ID=17159725

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5247186A Pending JPH07104779A (ja) 1993-10-01 1993-10-01 音声認識方法

Country Status (1)

Country Link
JP (1) JPH07104779A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001312296A (ja) * 2000-05-02 2001-11-09 Internatl Business Mach Corp <Ibm> 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体
JP2008129527A (ja) * 2006-11-24 2008-06-05 Nippon Telegr & Teleph Corp <Ntt> 音響モデル生成装置、方法、プログラム及びその記録媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001312296A (ja) * 2000-05-02 2001-11-09 Internatl Business Mach Corp <Ibm> 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体
JP2008129527A (ja) * 2006-11-24 2008-06-05 Nippon Telegr & Teleph Corp <Ntt> 音響モデル生成装置、方法、プログラム及びその記録媒体
JP4705557B2 (ja) * 2006-11-24 2011-06-22 日本電信電話株式会社 音響モデル生成装置、方法、プログラム及びその記録媒体

Similar Documents

Publication Publication Date Title
Lee Context-independent phonetic hidden Markov models for speaker-independent continuous speech recognition
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
US6243680B1 (en) Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
EP1575030B1 (en) New-word pronunciation learning using a pronunciation graph
EP0590925B1 (en) Method of speech modelling and a speech recognizer
CN111524534B (zh) 一种语音分析方法、***、设备及存储介质
JP4141495B2 (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
US7136816B1 (en) System and method for predicting prosodic parameters
US5581655A (en) Method for recognizing speech using linguistically-motivated hidden Markov models
US6085160A (en) Language independent speech recognition
US20050159949A1 (en) Automatic speech recognition learning using user corrections
EP0570660A1 (en) Speech recognition system for natural language translation
US5873061A (en) Method for constructing a model of a new word for addition to a word model database of a speech recognition system
US11450320B2 (en) Dialogue system, dialogue processing method and electronic apparatus
EP0562138A1 (en) Method and apparatus for the automatic generation of Markov models of new words to be added to a speech recognition vocabulary
Kadambe et al. Language identification with phonological and lexical models
Sukkar Subword-based minimum verification error (SB-MVE) training for task independent utterance verification
JPH07104779A (ja) 音声認識方法
JPH08123470A (ja) 音声認識装置
El Ouahabi et al. Amazigh speech recognition using triphone modeling and clustering tree decision
JPH08248988A (ja) 音声認識方法
JPH05232989A (ja) 音響モデルの話者適応化法
Babu et al. Unsupervised Adaptation of ASR Systems Using Hybrid HMM/VQ Model
Kuhn et al. Applications of decision tree methodology in speech recognition and understanding
Koo et al. Context dependent phoneme duration modeling with tree-based state tying.