JP3926716B2 - 音響モデル学習方法、その装置及び音響モデル学習プログラム、その記録媒体 - Google Patents

音響モデル学習方法、その装置及び音響モデル学習プログラム、その記録媒体 Download PDF

Info

Publication number
JP3926716B2
JP3926716B2 JP2002276861A JP2002276861A JP3926716B2 JP 3926716 B2 JP3926716 B2 JP 3926716B2 JP 2002276861 A JP2002276861 A JP 2002276861A JP 2002276861 A JP2002276861 A JP 2002276861A JP 3926716 B2 JP3926716 B2 JP 3926716B2
Authority
JP
Japan
Prior art keywords
label data
speech
acoustic model
output
update information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002276861A
Other languages
English (en)
Other versions
JP2004117476A (ja
Inventor
克年 大附
義和 山口
敏 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2002276861A priority Critical patent/JP3926716B2/ja
Publication of JP2004117476A publication Critical patent/JP2004117476A/ja
Application granted granted Critical
Publication of JP3926716B2 publication Critical patent/JP3926716B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識で用いる音響モデルを学習するための音声認識用音響モデル学習方法、その装置及び音響モデル学習プログラム、その記録媒体に関する。
【0002】
【従来の技術】
連続音声認識により入力音声を単語系列へと変換する場合に、単語系列の膨大な探索空間を効率的に探索するための方法としてマルチパス探索手法が知られている。マルチパス探索では前段のパスで粗いモデルを用いて単語系列の候補を絞り、後段のパスでは前段で絞られた探索空間に対して詳細なモデルを適用して探索を効率的に進める。そのためマルチパス探索では各パスに対応した詳細度の異なるモデルを用意しておくことが必要になる。
詳細度の異なるモデルを用意するためには、音声ラベルデータ(例えば、音素系列)をそれぞれの詳細度に応じて展開し、それぞれの詳細度ごとにモデル連結して音声データに対して連結学習を行う必要がある。
連結学習における学習量を削減する方法としては、モデルによって獲得されたセグメンテーション(音声データと音声ラベルデータとの時間的な対応関係)と音響特徴量(例えば、スペクトラム、LPCケプストラムなど)に基づくセグメンテーションとが一致する区間内で連結学習を行うことにより、全音声区間で連結学習を行うのに比べて計算量を削減する方法が提案されている(例えば、特許文献1)。
【0003】
【特許文献1】
特開平7−13587号公報
【0004】
【発明が解決しようとする課題】
上述した従来の音響モデルの学習方法では、詳細度ごとに連結学習を行うため、詳細度の異なる音声ラベルデータにおいて共通の音声ラベルが存在するような場合には、その部分の学習で行われる演算は重複するため無駄な処理が含まれてしまい計算量が多くなるという問題点があった。
そこで、この発明の目的は、詳細度の異なる音響モデルを学習する際に、重複する演算を省くことにより従来法より少ない計算量で音響モデルを学習する方法、その装置を提供することにある。
【0005】
【課題を解決するための手段】
この発明の音響モデル学習方法によれば、音声データに対して異なる詳細度に展開した音声ラベルデータにより音響モデルの学習を行い、一方でその音響モデルを用いて音声データと音声ラベルデータの時間的な対応関係(セグメンテーション)を獲得する。次に、異なる詳細度に展開した音声ラベルデータを用いて、前段で学習されていない音声ラベルについてのみ獲得されたセグメンテーションを用いて音響モデルを学習する。
【0006】
【発明の実施の形態】
この発明の実施の形態について図面を参照して詳細に説明する。
図1にこの発明による音響モデル学習方法の一実施例が適用される音響モデル学習装置の構成例を示す。
音声データベース140には、音響モデルの学習に用いる音声データが格納されている。音声ラベルデータベース160には音声データに対応するラベルデータが格納されている。ラベルデータとは、例えば、音声データの発声内容をカナ、ローマ字、音素などで記述したものである。音響分析部150では、音声データを音響モデルの学習に用いる音響特徴量(スペクトラム、LPCケプストラムなど)へと変換する。音声ラベルデータ変換部170では、ラベルデータを1種類あるいは複数の詳細度のラベルへと変換する。音響モデル学習部120では、入力された音響特徴量とラベルデータから初期音響モデル110に対する更新情報を計算し、更新結果を反映した音響モデル130を出力する。繰り返し学習を行う場合には、出力された音響モデル130を初期音響モデル110に書き換えて同じ処理を繰り返す。
【0007】
図2に、音声ラベルデータ変換部170において3種類の詳細度のラベルを生成する例を示す。
入力音声ラベルデータ210は音素系列であり、p,q,r,s,t,u,vはそれぞれ音素を表しており、“#”は無音、“|”は単語境界をそれぞれ表す。このラベルデータを音声ラベルデータ変換部170で音響モデル学習用に変換すると220,230,240のような3種類の詳細度のラベルが得られる。220は詳細度の低いラベルで、各音素が前後の音素環境に依存しない音素環境独立モデルに対応する。230は、単語境界の内側でのみ前後の音素環境に依存する単語内音素環境依存モデルに対応する。これは前後の音素環境によってモデルが異なるため音素環境独立モデルよりも詳細なモデルに対応する。240は、単語境界を越えて前後の音素環境に依存する単語間音素環境依存モデルである。これは、単語内環境依存モデルよりもさらに詳細度の高いモデルである。
詳細度の異なる音響モデルを学習するには、このような複数の詳細度のラベルを用いて、それぞれのラベルに対応するモデルを連結して連結学習を行う必要がある。しかし、従来の音響モデル学習方法をそのまま適用して3種類のラベルについて連結学習を行うと230,240の斜線の部分のように異なる詳細度のラベルと同じ学習をする部分が出てきてしまい、無駄な計算が行われることになる。
【0008】
図3〜5に本発明の音響モデル学習方法による複数の詳細度のラベルデータを用いた学習の手順(1)〜(3)を示す。
(1)まず、音声データを音響分析して得られた音響特徴量系列310と最も詳細度の高いラベルデータ240とを用いて更新情報獲得部320により初期音響モデル110に対して更新情報(a)330を獲得する。一方で同じく音響特徴量系列310と最も詳細度の高いラベルデータ240と初期音響モデル110とを用いてセグメンテーション情報獲得部340によりセグメンテーション情報350を獲得する。
(2)次に、セグメンテーション情報350と2番目に詳細度の高いラベルデータ230とからセグメンテーション付き音声ラベルデータ360を生成する。音響特徴量列310とセグメンテーション付き音声ラベルデータ360とを用いてセグメンテーション付き音声ラベルデータ360のうちまだ学習されていない部分(図4:360の×印を除いた部分)について初期音響モデル110に対する更新情報(b)370を更新情報獲得部320により獲得する。
(3)さらに、セグメンテーション情報350と最も詳細度の低いラベルデータ220とからセグメンテーション付き音声ラベルデータ380を生成する。音響特徴量系列310とセグメンテーション付き音声ラベルデータ380とを用いてセグメンテーション付き音声ラベルデータ380のうちまだ学習されていない部分(図5:380の×印を除いた部分)について初期音響モデル110に対する更新情報(c)390を更新情報獲得部320により獲得する。以上により獲得された更新情報を統合することにより統合更新情報400を獲得しこれを用いて出力音響モデル130を生成する。各更新情報獲得部ではすでに学習された部分については更新情報の獲得を行わないので従来の学習方法で行われていた冗長な演算を避けることができる。
【0009】
音声認識処理を行う場合に、複数の音響モデルのうち入力音声にできるだけ適合したモデルを選択して認識を行うことにより高精度な音声認識結果を得ることができる。モデルを選択するためには、そのモデルの音声シンボルの集合(例えば、音素シンボル列)に対応するモデルを利用することが有効であり、本発明は、そのようなモデル選択の際に用いられるモデルの学習にも適用することができる。モデル選択用のモデルとしては、例えば、全音声ガウス混合モデルがある。本発明の音響モデルの学習方法による全音声ガウス混合モデルの学習の手順を示す。
まず、図3:手順(1)と同様に音声データを音響分析して得られた音響特徴量系列310と音響モデルの中で最も詳細度の高いラベルデータ240とを用いてセグメンテーション情報獲得部340によりセグメンテーション情報350を獲得する。次に、全音声モデルに変換したラベルデータ410を用いてセグメンテーション情報350に基づいてセグメンテーション付き音声ラベルデータ420を生成する。音響特徴量系列310とセグメンテーション付き音声ラベルデータ420とを用いて全音声モデル(garbage)に対応する部分について初期音響モデル110に対する更新情報430を更新情報獲得部320により獲得する。獲得された更新情報430を初期音響モデル110に対して反映させることにより出力音響モデル440を獲得する。
【0010】
従来の音響モデル学習方法により全音声モデルを連結学習すると、無音部分と全音声部分との境界があいまいになりその結果全音声モデルが無音部分を含んで学習されてしまい全音声モデルの精度を劣化させていた。本発明の音響モデル学習方法によれば、詳細な音響モデルによって得られたセグメンテーションを用いて全音声モデルを学習するため、無音部分を含まずに音声部分だけで学習した高精度な全音声モデルの学習が可能となる。
【0011】
上述した音響モデルの学習はコンピュータによりプログラムを実行させて行うこともできる。例えば図7に示すように各部がバス510に接続され、メモリ520に音響モデル学習プログラムがCD−ROM、ハードディスクなどから、あるいは通信回線を介してインストールされてあり、CPU530がこの音響モデル学習プログラムを実行することにより、初期音響モデル110、音声データベース140、音声ラベルデータベース160を用いて、更新情報を上述の方法で求め、その後、更新情報に基づいて出力音響モデルのパラメータを生成して出力音響モデル130を生成する。記憶部540は音響分析や、更新情報獲得時に一時的にデータを記憶するためなどに用いられる。
【0012】
この発明の効果を音響モデルのタスク適応実験により評価した。
音声データベースとして約30時間のニュース音声データベースを用いて初期音響モデルをニュース音声認識タスクへ適応した。初期音響モデルは約5000状態からなる各音素3状態8混合の状態共有音素HMM(Hidden Markov Model)で、音素環境独立モデル、単語内音素環境依存モデル、単語間音素環境依存モデルを含んでいる。音響モデルの適応処理は、従来の音響モデル学習方法と本発明の音響モデル学習方法とそれぞれについてML(maximizing likelihood)推定を3回繰り返した。それぞれの方法で生成された適応音響モデルをニュース音声認識実験により評価した。評価データは202文のニュース音声である。評価結果を表1に示す。
【表1】
Figure 0003926716
表1をみると、本発明の音響モデル学習方法は従来法の約半分の学習時間でほぼ同程度の単語誤り率を達成することができており、冗長な計算を回避して計算量を削減しつつ従来通りの学習効果が得られていることが確認できる。
【0013】
【発明の効果】
以上述べたように、この発明によれば下記の効果を得ることができる。
第1の効果は、詳細なモデルによるセグメンテーション情報を利用することにより、より粗いモデルを学習する際にすでに学習済みの部分の学習を回避して処理量を削減することができる。
第2の効果は、全音声モデルなどの粗いモデルを学習に、詳細なモデルによるセグメンテーション情報を利用することにより、粗いモデルを高精度に学習することができる。
【図面の簡単な説明】
【図1】本発明の音響モデル学習装置の構成例を示す図。
【図2】図1における音声ラベルデータ変換部の説明図。
【図3】本発明の音響モデル学習方法を3種類の詳細度のモデルの学習に適用した場合の手順(1)の説明図。
【図4】本発明の音響モデル学習方法を3種類の詳細度のモデルの学習に適用した場合の手順(2)の説明図。
【図5】本発明の音響モデル学習方法を3種類の詳細度のモデルの学習に適用した場合の手順(3)の説明図。
【図6】本発明の音響モデル学習方法を全音声モデルの学習に適用した場合の手順の説明図。
【図7】本発明による音響モデル学習方法をコンピュータにより実行される場合の構成例を示す図。
【符号の説明】
110・・・初期音響モデル、120・・・音響モデル学習部、130・・・出力音響モデル、140・・・音声データベース、150・・・音響分析部、160・・・音声ラベルデータベース、170・・・音声ラベルデータ変換部
210・・・入力音声ラベルデータ、220・・・出力音声ラベルデータ1(詳細度:低)、230・・・出力音声ラベルデータ2(詳細度:中)、出力音声ラベルデータ3(詳細度:高)
310・・・音響特徴量系列(入力音声データ)、320・・・更新情報獲得部、330・・・更新情報(a)、340・・・セグメンテーション情報獲得部、350・・・セグメンテーション情報、360・・・セグメンテーション付き出力音声ラベルデータ(詳細度:中)、370・・・更新情報(b)、380・・・セグメンテーション付き出力音声ラベルデータ(詳細度:低)、390・・・更新情報(c)
400・・・統合更新情報、430・・・更新情報、440・・・出力音響モデル
510・・・バス、520・・・音響モデル学習プログラムメモリ、530・・・CPU、540・・・記憶部

Claims (4)

  1. 音声データから変換した音響特徴量系列と、該音声データに対して異なる詳細度に展開した複数の出力音声ラベルデータとから音響モデルを学習する方法において、
    (a)上記音響特徴量系列と、上記複数の出力音声ラベルデータのうち最も詳細度が高い出力音声ラベルデータとを用いて、初期音響モデルに対する更新情報を獲得する手順と、
    (b)上記音響特徴量系列と、上記最も詳細度が高い出力音声ラベルデータと、上記初期音響モデルとを用いて、上記音声データと上記音声ラベルデータとの時間的な対応関係(以下、セグメンテーション情報という)を獲得する手順と、
    (c)上記セグメンテーション情報と、直前の更新情報の獲得に用いた出力音声ラベルデータの次に詳細度が低い出力音声ラベルデータとから、セグメンテーション付き音声ラベルデータを生成する手順と、
    (d)上記音響特徴量系列と、上記セグメンテーション付き音声ラベルデータとを用いて、該セグメンテーション付き音声ラベルデータのうちまだ学習されていない部分について、上記初期音響モデルに対する更新情報を獲得する手順と、
    (e)上記(c)、(d)の手順を、上記複数の出力音声ラベルデータのすべてについての更新情報を獲得するまで繰り返す手順と、
    (f)上記各更新情報を統合して統合更新情報を獲得する手順と、
    (g)上記統合更新情報を用いて、上記初期音響モデルを更新して上記複数の出力音声ラベルデータと対応する各モデルを含む出力音声音響モデルを生成する手順と、
    を有することを特徴とする音響モデル学習方法。
  2. 音声データから変換した音響特徴量系列と、該音声データに対して異なる詳細度に展開した複数の出力音声ラベルデータとから音響モデルを学習する装置において、
    (a)上記音響特徴量系列と、上記複数の出力音声ラベルデータのうち最も詳細度が高い出力音声ラベルデータとを用いて、初期音響モデルに対する更新情報を獲得する手段と、
    (b)上記音響特徴量系列と、上記最も詳細度が高い出力音声ラベルデータと、上記初期音響モデルとを用いて、上記音声データと上記音声ラベルデータとの時間的な対応関係(以下、セグメンテーション情報という)を獲得する手段と、
    (c)上記セグメンテーション情報と、直前の更新情報の獲得に用いた出力音声ラベルデータの次に詳細度が低い出力音声ラベルデータとから、セグメンテーション付き音声ラベルデータを生成する手段と、
    (d)上記音響特徴量系列と、上記セグメンテーション付き音声ラベルデータとを用いて、該セグメンテーション付き音声ラベルデータのうちまだ学習されていない部分について、上記初期音響モデルに対する更新情報を獲得する手段と、
    (e)上記(c)、(d)の手順を、上記複数の出力音声ラベルデータのすべてについての更新情報を獲得するまで繰り返す手段と、
    (f)上記各更新情報を統合して統合更新情報を獲得する手段と、
    (g)上記統合更新情報を用いて、上記初期音響モデルを更新して上記複数の出力音声ラベルデータと対応する各モデルを含む出力音声音響モデルを生成する手段と、
    を有することを特徴とする音響モデル学習装置。
  3. 請求項1記載の音響モデル学習方法の各手順をコンピュータに実行させるための音響モデル学習プログラム。
  4. 請求項3記載の音響モデル学習プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2002276861A 2002-09-24 2002-09-24 音響モデル学習方法、その装置及び音響モデル学習プログラム、その記録媒体 Expired - Lifetime JP3926716B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002276861A JP3926716B2 (ja) 2002-09-24 2002-09-24 音響モデル学習方法、その装置及び音響モデル学習プログラム、その記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002276861A JP3926716B2 (ja) 2002-09-24 2002-09-24 音響モデル学習方法、その装置及び音響モデル学習プログラム、その記録媒体

Publications (2)

Publication Number Publication Date
JP2004117476A JP2004117476A (ja) 2004-04-15
JP3926716B2 true JP3926716B2 (ja) 2007-06-06

Family

ID=32272621

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002276861A Expired - Lifetime JP3926716B2 (ja) 2002-09-24 2002-09-24 音響モデル学習方法、その装置及び音響モデル学習プログラム、その記録媒体

Country Status (1)

Country Link
JP (1) JP3926716B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5161183B2 (ja) * 2009-09-29 2013-03-13 日本電信電話株式会社 音響モデル適応装置、その方法、プログラム、及び記録媒体

Also Published As

Publication number Publication date
JP2004117476A (ja) 2004-04-15

Similar Documents

Publication Publication Date Title
Young et al. The HTK book
JP5318230B2 (ja) 認識辞書作成装置及び音声認識装置
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
US5949961A (en) Word syllabification in speech synthesis system
US5581655A (en) Method for recognizing speech using linguistically-motivated hidden Markov models
JP4215418B2 (ja) 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
JP5208352B2 (ja) 声調言語用分節声調モデリング
CN112435654B (zh) 通过帧***对语音数据进行数据增强
JP2001255889A (ja) 音声認識装置および音声認識方法、並びに記録媒体
KR20050076696A (ko) 스위칭 상태 스페이스 모델과의 멀티모덜 변동 추정을이용한 스피치 인식 방법
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
Hasan et al. A spell-checker integrated machine learning based solution for speech to text conversion
US6662158B1 (en) Temporal pattern recognition method and apparatus utilizing segment and frame-based models
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP3628245B2 (ja) 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体
JP3926716B2 (ja) 音響モデル学習方法、その装置及び音響モデル学習プログラム、その記録媒体
Demeechai et al. Recognition of syllables in a tone language
JP2938865B1 (ja) 音声認識装置
US20040148163A1 (en) System and method for utilizing an anchor to reduce memory requirements for speech recognition
JP2005091504A (ja) 音声認識装置
Alleva et al. Automatic new word acquisition: Spelling from acoustics
KR100275446B1 (ko) 음소 인식률을 이용한 기본 음소 설정 방법
Vertanen Efficient computer interfaces using continuous gestures, language models, and speech
JP2001100789A (ja) 連続音声認識装置の音素認識性能測定装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060323

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070228

R150 Certificate of patent or registration of utility model

Ref document number: 3926716

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110309

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110309

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120309

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130309

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term