JPH096387A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH096387A
JPH096387A JP7151598A JP15159895A JPH096387A JP H096387 A JPH096387 A JP H096387A JP 7151598 A JP7151598 A JP 7151598A JP 15159895 A JP15159895 A JP 15159895A JP H096387 A JPH096387 A JP H096387A
Authority
JP
Japan
Prior art keywords
word
voice
markov model
feature data
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7151598A
Other languages
English (en)
Inventor
Nobuyuki Kono
信幸 香野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP7151598A priority Critical patent/JPH096387A/ja
Publication of JPH096387A publication Critical patent/JPH096387A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 類似単語同士の識別能力が優れた音声認識装
置を提供することを目的とする。 【構成】 入力された音声から切り出した単語音声か
ら、特徴データを抽出する特徴抽出部3と、特徴データ
からマルコフモデルによりモデル化する際の単語音声に
対する状態数を推定する状態数推定部4と、新に登録し
ようとする単語音声と類似した単語が既に登録されてい
ないか判定する類似単語判定部5と、推定した状態数を
増やす状態数加算部6と、特徴データを単語モデルに当
てはめてマルコフモデルパラメータを求める学習部7
と、マルコフモデルパラメータからなる音声辞書ファイ
ル8と、各単語モデルに対して尤度を計算し認識候補を
判定する照合判定部9とを備える。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、単語音声を認識し、そ
の認識結果を出力する音声認識装置に関するものであ
る。
【0002】
【従来の技術】従来の音声認識装置についての説明を行
うに先立ち、従来の音声認識装置で用いられているHidd
en Markov Model(本明細書において「マルコフモデ
ル」という)による音声認識の原理について説明する。
【0003】マルコフモデルは、N個の状態S1,S
2,...,SNを持ち、一定周期毎に、ある確率(遷移確
率)で状態を次々に遷移するとともに、その際に、ある
確率(出力確率)でラベル(特徴データ)を一つずつ出
力するというものである。
【0004】そして、音声をラベル(特徴データ)の時
系列と見て、学習時に、各単語を数回発声してそれらを
モデル化したマルコフモデルを作成しておき、認識時に
は、入力音声のラベル系列を出力する確率(尤度)が最
大になるマルコフモデルを探すことで認識を行なう。
【0005】以下、図面を見ながら具体的に説明する。
図5は、従来の音声認識装置におけるマルコフモデルの
説明図である。図示しているものは、日本音響学会誌4
2巻12号(1986)「Hidden Markov Modelに基
づいた音声認識」で示されたマルコフモデルの簡単な例
であり、このマルコフモデルは、3つの状態で構成さ
れ、2種類のラベルaとラベルbのみからなるラベル系列
を出力する。
【0006】初期状態はS1で、S1からは、0.3の
確率でS1自体に遷移する(その際にラベルaを出力す
る。なお、ラベルbは出力確率が0.0なので出力され
ない)か、0.7の確率でS2に遷移する(その際にラ
ベルaを0.5の確率で、ラベルbを0.5の確率で出
力する)。
【0007】状態S2からは、0.2の確率でS2自体
に遷移する(その際にラベルaかラベルbかをそれぞれ
0.3、0.7の確率で出力する)か、0.8の確率で
最終状態S3に遷移する(その際にラベルbを出力す
る。ラベルaは出力確率が0.0なので出力されない)
ことを表している。
【0008】ここで、このマルコフモデルがラベル系列
(特徴データの列)abbを出力する確率(尤度)を考
えると、このマルコフモデルで許される状態系列は、S
1S1S2S3とS1S2S2S3の2つだけであり、
それぞれ確率は、 0.3*1.0*0.7*0.5*0.8*1.0=0.0840 0.7*0.5*0.2*0.7*0.8*1.0=0.0392 である。どちらの可能性もあるので、合計0.0840
+0.0392=0.1232の確率でこのマルコフモ
デルはabbを出力することがわかる。
【0009】さて、予め単語毎にそのマルコフモデルを
学習して、各単語に最も適した状態の遷移確率と各状態
遷移におけるラベルの出力確率を求めておけば、ある未
知の単語のラベル系列が入力された場合、各マルコフモ
デルに対して確率(尤度)計算を行い、どの単語に対す
るマルコフモデルがこのラベル系列を出力し易いかを知
ることができ、これにより認識を行うことができる。以
上が、マルコフモデルによる音声認識の原理である。
【0010】また図6は、従来の音声認識装置における
音声波形、特徴データの時系列とマルコフモデルの各状
態の対応を示す例示図であり、「はじめ」と発声した場
合の対応関係を示している。このように、音声の特徴デ
ータの時系列に対して、その単語の音韻数程度の少ない
状態数でマルコフモデルが表現される。
【0011】ところで、従来のマルコフモデルを用いた
単語音声を認識する音声認識装置では、学習時に、音声
認識装置に登録する各単語に対し、その単語の音韻数程
度の少ない状態数を音韻のスペクトル変化等から求め、
各状態遷移での特徴データの出力確率と状態間の遷移確
率を学習により推定してマルコフモデルにモデル化して
おき、認識時に入力音声をこれら全てのモデルに当ては
めて、尤度計算を行い認識していた。
【0012】
【発明が解決しようとする課題】ところで、従来の音声
認識装置を用いて、学習時に単語を登録する際に、例え
ば、「さとう」という単語を登録した後から、それと音
響的によく似た単語「かとう」などを登録しようとする
と、同じような状態数とマルコフモデルパラメータとな
るため、そのまま登録すると認識時に両単語の識別が難
しくなる。このため、既に類似単語が登録されている場
合、利用者に「かとう」ではなく例えば「かとうかちょ
う」などどいうように、言い直しをしてもらってから、
登録する必要があった。このように、従来の音声認識装
置では、類似した音声を識別する能力が低いため、頻繁
に利用者に言い直しを求めざるを得ないという問題点が
あった。
【0013】そこで本発明は、類似単語同士の識別能力
が優れた音声認識装置を提供することを目的とする。
【0014】
【課題を解決するための手段】本発明の音声認識装置
は、単語音声を含む音声を入力するための音声入力手段
と、入力された音声から単語音声の部分だけを切り出す
単語音声切り出し部と、切り出した単語音声から特徴デ
ータを抽出する特徴抽出部と、特徴データからマルコフ
モデルによりモデル化する際の単語音声に対する状態数
を推定する状態数推定部と、新に登録しようとする単語
音声と類似した単語が既に登録されていないか判定する
類似単語判定部と、推定した状態数を増やす状態数加算
部と、特徴データを単語モデルに当てはめてマルコフモ
デルパラメータを求める学習部と、学習したマルコフモ
デルパラメータからなる音声辞書ファイルと、各単語モ
デルに対して尤度を計算して、認識候補を判定する照合
判定部と、認識結果を出力する判定結果出力部とを備え
る。
【0015】
【作用】上記構成により、状態数加算部が推定された状
態数をさらに増やすことにより、単語の特徴がきめ細や
かに表現され、音声認識装置が類似単語を識別し易くな
るため、類似単語でもそのまま登録できることになり、
その結果、利用者に類似単語が区別できるように、言い
直しを求める頻度を低く押さえることができる。
【0016】
【実施例】次に図面を参照しながら、本発明の実施例に
ついて説明する。
【0017】図1は、本発明の一実施例における音声認
識装置の機能ブロック図であり、図1において、1は単
語音声を含む音声を入力するための音声入力手段、2は
単語音声を含む音声から単語音声の部分だけを切り出す
単語音声切り出し部、3は切り出した単語音声から特徴
データを抽出する特徴抽出部、4は特徴データからマル
コフモデルによりモデル化する際の単語音声に対する状
態数を推定する状態数推定部、5は新に登録しようとす
る単語音声と類似した単語が既に登録されていないか判
定する類似単語判定部、6は推定した状態数を増やす状
態数加算部、7は特徴データを単語モデルに当てはめて
マルコフモデルパラメータを求める学習部、8は学習し
たマルコフモデルパラメータを含む音声辞書ファイル、
9は各単語モデルに対して尤度を計算して、認識候補を
判定する照合判定部、10は認識結果を出力する判定結
果出力部である。
【0018】図2は、本発明の一実施例における音声認
識装置の回路ブロック図であり、図2において、11は
マイク、12はプログラムを記憶するROM(読み出し
専用メモリ)、13はROM12のプログラムを実行し
全体を制御するCPU(中央処理装置)、14はCPU
13がプログラムを実行する際に必要な情報を一時格納
するRAM(書き込み可能メモリ)、15は処理状況な
どを利用者に表示するモニター、16は情報を保存する
ファイル装置である。
【0019】なお、図1における音声入力手段1はマイ
ク11により、単語音声切り出し部2と特徴抽出部3と
状態数推定部4と類似単語判定部5と状態数加算部6と
学習部7と照合判定部9は、CPU13がマイク11と
ROM12とRAM14およびファイル装置16とデー
タのやりとりを行ないながらROM12に記憶されたプ
ログラムを実行することにより、実現される。また、音
声辞書ファイル8はファイル装置16に格納されるもの
であり、判定結果出力部10はモニター15により実現
されている。
【0020】図3は、本発明の一実施例における登録時
のフローチャート、図4は、本発明の一実施例における
認識時のフローチャートである。
【0021】以上のように構成された本実施例における
音声認識装置に、単語音声「かとう」が登録される場合
の動作を図3のフローチャートに基づき説明する。なお
ここでは、既に音響的に「かとう」と類似単語である
「さとう」が音声辞書ファイル8内に登録されているも
のとする。
【0022】まず、ステップ1にて、音声入力手段1か
ら単語音声「かとう」を含む発声音声が入力される。ス
テップ2では、単語音声切り出し部2により、単語音声
「かとう」を含む発声音声から単語音声「かとう」を切
り出す。これは、単語音声切り出し部2が、音声のパワ
ー等により単語音声「かとう」の前後の無音または低雑
音部分を検出し取り除くことにより実現できる。
【0023】ステップ3では、特徴抽出部3における線
形予測分析(LPC分析)により、その単語音声「かと
う」に対するLPCケプストラム係数を求める等の方法で
特徴抽出を行なう。ステップ4では、状態数推定部4に
より、ステップ3で単語音声「かとう」から抽出した特
徴データから、その単語音声に対する状態数を推定す
る。状態数の推定は、日本音響学会講演論文集(199
0.3)「連続数字音声認識におけるHMMの状態数及
び混合数について」に基づいて行う。
【0024】ステップ5では、類似単語判定部5によ
り、単語音声「かとう」の類似単語が、既に音声辞書フ
ァイル18内に存在しているかどうかを判定する。この
判定は、一般的なDPマッチング技術を用いたり、単語音
声「かとう」を用いて本音声認識装置で認識を行ない、
認識候補が有るか無いかにより判断することで実現して
いる。判定の結果、類似単語が有ればステップ6へ進
み、類似単語が無ければステップ7へ進む。ここでは、
類似単語「さとう」があるためステップ6へ進むことに
なる。
【0025】ステップ6では、状態数加算部6により、
ステップ4で推定した状態数を、あるパーセント分増や
す。なお、このパーセント値は、例えば推定した状態数
の10パーセント増等、類似単語が識別できるようにな
るまでパーセント値を少しずつ変化させながら、この音
声認識装置を評価することにより予め決定しておくこと
ができる。これにより、単語の音韻数程度の状態数に比
べ、かなり状態数を増やすことができる。
【0026】ステップ7では、学習部7により単語音声
「かとう」の特徴データをステップ5またはステップ6
で求めた状態数(この例では類似単語があるためステッ
プ6で求めた状態数)を持つマルコフモデルを用いて学
習し、各状態間の遷移確率および遷移における特徴デー
タの出力確率のマルコフモデルパラメータを求め、音声
辞書ファイル8に、求めたマルコフモデルパラメータを
格納する。
【0027】さらに、ステップ7で、単語音声「かと
う」の特徴データを学習しマルコフモデルパラメータを
求めて、音声辞書ファイル8に、求めたマルコフモデル
パラメータと特徴データとを格納する。類似単語がある
場合、音声辞書ファイル8に既に登録済みの、類似単語
であると判断された単語音声「さとう」の特徴データ読
み込み、再度ステップ6で求めた状態数を持つマルコフ
モデルを用いて学習し、求めたマルコフモデルパラメー
タを、既に格納していた「さとう」のマルコフモデルパ
ラメータと入れ替える。
【0028】次に、単語音声「かとう」を認識する場合
の動作を図4のフローチャートに基づき説明する。まず
ステップ11にて、音声入力手段1から単語音声「かと
う」を含む発声音声が入力される。ステップ12では、
単語音声切り出し部2により単語音声「かとう」を含む
発声音声から単語音声「かとう」を切り出す。ステップ
13では、特徴抽出部3により単語音声「かとう」に対
する特徴抽出を行なう。
【0029】ステップ14では、照合判定部9により単
語音声「かとう」の特徴データを用いて音声辞書ファイ
ル8から読み込んだ各単語モデルのマルコフモデルパラ
メータ上で尤度計算を行ない尤度の高い単語モデルを認
識候補と判定する。ステップ15では、判定結果出力部
10により認識結果を利用者に表示する。
【0030】
【発明の効果】本発明では、類似単語として判定した場
合に、マルコフモデル化するときの状態数を作為的に増
やすことにより特徴を詳細に表現して類似単語間の識別
を可能にしている。このため利用者に言い直しを求める
頻度が少なくなり、認識の精度も向上することができ
る。
【図面の簡単な説明】
【図1】本発明の一実施例における音声認識装置の機能
ブロック図
【図2】本発明の一実施例における音声認識装置の回路
ブロック図
【図3】本発明の一実施例における登録時のフローチャ
ート
【図4】本発明の一実施例における認識時のフローチャ
ート
【図5】従来の音声認識装置におけるマルコフモデルの
説明図
【図6】従来の音声認識装置における音声波形、特徴デ
ータの時系列とマルコフモデルの各状態の対応を示す例
示図
【符号の説明】
1 音声入力手段 2 単語音声切り出し部 3 特徴抽出部 4 状態数推定部 5 類似単語判定部 6 状態数加算部 7 学習部 8 音声辞書ファイル 9 照合判定部 10 判定結果出力部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】単語音声を含む音声を入力するための音声
    入力手段と、入力された音声から単語音声の部分だけを
    切り出す単語音声切り出し部と、切り出した単語音声か
    ら特徴データを抽出する特徴抽出部と、特徴データから
    マルコフモデルによりモデル化する際の単語音声に対す
    る状態数を推定する状態数推定部と、新に登録しようと
    する単語音声と類似した単語が既に登録されていないか
    判定する類似単語判定部と、推定した状態数を増やす状
    態数加算部と、特徴データを単語モデルに当てはめてマ
    ルコフモデルパラメータを求める学習部と、学習したマ
    ルコフモデルパラメータからなる音声辞書ファイルと、
    各単語モデルに対して尤度を計算して、認識候補を判定
    する照合判定部と、認識結果を出力する判定結果出力部
    とを備えたことを特徴とする音声認識装置。
  2. 【請求項2】登録済みの単語に対しても、増やした状態
    数で再度学習を行なうべく、音声辞書ファイルに学習し
    たマルコフモデルパラメータの他に単語音声の特徴デー
    タも格納するようにしたことを特徴とする請求項1記載
    の音声認識装置。
JP7151598A 1995-06-19 1995-06-19 音声認識装置 Pending JPH096387A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7151598A JPH096387A (ja) 1995-06-19 1995-06-19 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7151598A JPH096387A (ja) 1995-06-19 1995-06-19 音声認識装置

Publications (1)

Publication Number Publication Date
JPH096387A true JPH096387A (ja) 1997-01-10

Family

ID=15522033

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7151598A Pending JPH096387A (ja) 1995-06-19 1995-06-19 音声認識装置

Country Status (1)

Country Link
JP (1) JPH096387A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006109515A1 (ja) * 2005-03-31 2006-10-19 Pioneer Corporation 操作者認識装置、操作者認識方法、および、操作者認識プログラム
JP2019039965A (ja) * 2017-08-22 2019-03-14 アルパイン株式会社 音声認識システム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006109515A1 (ja) * 2005-03-31 2006-10-19 Pioneer Corporation 操作者認識装置、操作者認識方法、および、操作者認識プログラム
JPWO2006109515A1 (ja) * 2005-03-31 2008-10-23 パイオニア株式会社 操作者認識装置、操作者認識方法、および、操作者認識プログラム
JP4588069B2 (ja) * 2005-03-31 2010-11-24 パイオニア株式会社 操作者認識装置、操作者認識方法、および、操作者認識プログラム
US7979718B2 (en) 2005-03-31 2011-07-12 Pioneer Corporation Operator recognition device, operator recognition method and operator recognition program
JP2019039965A (ja) * 2017-08-22 2019-03-14 アルパイン株式会社 音声認識システム

Similar Documents

Publication Publication Date Title
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
EP1355295B1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
JP4322785B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
JP2955297B2 (ja) 音声認識システム
JP3660512B2 (ja) 音声認識方法、その装置及びプログラム記録媒体
JP2004325635A (ja) 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体
JP3444108B2 (ja) 音声認識装置
JP4666129B2 (ja) 発声速度正規化分析を用いた音声認識装置
JP2000194392A (ja) 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体
JP2000250593A (ja) 話者認識装置及び方法
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JPH096387A (ja) 音声認識装置
JPH0997095A (ja) 音声認識装置
JP4226273B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP3061292B2 (ja) アクセント句境界検出装置
JP2003345384A (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP3357752B2 (ja) パターンマッチング装置
Malcangi Softcomputing approach to segmentation of speech in phonetic units
JP2827590B2 (ja) 音声認識装置
JPH0772899A (ja) 音声認識装置
JP2004309654A (ja) 音声認識装置
CN115798461A (zh) 一种自定义命令词的训练方法、装置及电子设备
JP2001013983A (ja) 音声合成を用いた音声認識装置および音声認識方法
JPH05323990A (ja) 話者認識方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050712

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050714

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20051108