JPH0588693A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH0588693A
JPH0588693A JP3252555A JP25255591A JPH0588693A JP H0588693 A JPH0588693 A JP H0588693A JP 3252555 A JP3252555 A JP 3252555A JP 25255591 A JP25255591 A JP 25255591A JP H0588693 A JPH0588693 A JP H0588693A
Authority
JP
Japan
Prior art keywords
phoneme
dictionary
phonological
word
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3252555A
Other languages
English (en)
Other versions
JP3231365B2 (ja
Inventor
Hiroyuki Tsuboi
宏之 坪井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP25255591A priority Critical patent/JP3231365B2/ja
Publication of JPH0588693A publication Critical patent/JPH0588693A/ja
Application granted granted Critical
Publication of JP3231365B2 publication Critical patent/JP3231365B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 本発明は音韻を単位とした音声認識において
音韻辞書学習とトップダウン的認識による入力の音韻へ
の時間的区分化を考慮した学習機能(単語学習)によ
り、高い認識率を得ることができるようにする。 【構成】入力音声データを分折して求められる音声の特
徴パラメータの時系列から音韻特徴ベクトルを抽出する
手段1,2 、この抽出音韻特徴ベクトルと音韻辞書とを照
合し音韻の尤度時系列を得る手段3,5 、この音韻尤度時
系列と単語辞書を照合し認識結果を出力すると共に音韻
尤度時系列と単語辞書との照合結果から入力の音韻区分
情報を得る手段4,6 、この音韻区分情報と入力の特徴パ
ラメータの時系列から学習用音韻特徴ベクトルを選択を
抽出する手段13、学習用音韻特徴ベクトルと音韻辞書を
照合し音韻照合の判定結果と学習用音韻特徴ベクトルか
ら音韻辞書を学習させて新しい音韻辞書を得るよう制御
する手段7,8,11とより構成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は単語音声、文音声等に対
する認識性能を効果的に高めることができる音声認識装
置に関する。
【0002】
【従来の技術】従来より単語や文等を対象とした音声認
識装置において、認識語彙の変更の容易さや、また、構
文や意味的情報が利用し易いと云う利点から音韻、音
節、母音・子音・母音などを単位として音声認識する認
識方式が研究されている。
【0003】ここで云う音韻とは音声発声における言語
的最小単位をなすものであり、日本語における母音/I
/,/E/,/A/,/O/,/U/、撥音/N/、鼻
子音/m/,/n/、破裂子音/P/,/T/,/K
/,/B/,/D/,/G/、半母音/Y/,/W/な
どを指すもので、音素とも云う。
【0004】また、音節とは子音・母音、子音・半母音
・母音などを云う。ここでは、音韻を例に説明するが音
節、母音・子音・母音などの単位を用いた場合も同様で
ある。
【0005】入力された音声の認識はまず音韻について
行なわれ、次に単語や文の認識が行なわれる。音韻の認
識においては音韻毎に時間的区分化を各特徴を用いて行
なうボトムアップ的処理と、区分化を行なわずに単語や
文を認識語彙、構文や意味など上位の知識を用いて生成
し、区分化と認識を同時に行なうトップダウン的処理が
ある。
【0006】しかしながら、予め音韻を高い精度で区分
化をすることは困難であり、従って、トップダウン的処
理が用いられることが多い。そして、トップダウン処理
で高い認識率を達成するためには、音韻認識率の向上が
重要であり、多くの方式が用いられてきた。
【0007】例えば、ニューラル・ネットワークを用い
たTDNN(タイムディレード・ニューラル・ネットワ
ーク)法では、予め区分化された音韻データ(これを以
下、ラベル付け音韻データと呼ぶ)を用いて、ニューラ
ル・ネットワークで認識し、誤認識したデータについて
は正しく認識できるようにネットワークの係数を変更す
る学習を繰り返し行なうことで、音韻の認識率の向上を
図るようにしている。しかし、この方式では音韻の認識
には予め区分化された音韻データのみを用いて行なって
いるため、必ずしもトップダウン的な音韻の認識が高い
精度で行なわれるとは限らない。これは、ラベル付け音
韻データの区分化とトップダウン的な単語や文の認識の
区分化が音韻の誤り訂正学習で異ったものとなるためで
ある。また、ラベル付け音韻データとして、予め視察に
より専門家が区分化したデータをもとに音韻認識の辞書
を作成する場合にも、ラベル付け音韻データの区分化と
トップダウン的な認識の区分化が異なる。
【0008】そこで、トップダウン的な認識の結果に基
づき、音韻の区分化を再び行ない、音韻の辞書を作成す
る方式を用いて音韻認識率の向上を図る試みもなされて
いるが、音韻認識結果に基づく音韻辞書の学習が行なえ
ないことから、高い音韻認識率、さらには入力音声の高
い認識率は得られていない。
【0009】このように従来においては、音韻認識向上
のための音韻辞書学習と、トップダウン的認識における
時間的区分化を充分に考慮しないまま装置が開発される
結果、認識装置は思うような性能が得にくいものとなっ
ていた。また、使用者の登録した音声を用いて話者に適
応化させる話者適応型の装置においては、音韻辞書学習
方式により話者に適応させることができるよう、適応学
習させることができるが、上述したような時間的区分化
を充分考慮せずに装置が開発される結果、話者適応化の
効果が充分でなく、従って、認識装置の性能が不十分な
ものとなる原因となっていた。
【0010】さらに、雑音中の音声の認識装置におい
て、雑音により音韻の特徴ベクトルが変化すると同時
に、音韻特徴の時間的区分が変化することから、上述し
たような時間的区分化を考慮した認識装置は未開発のも
のとなっていた。このため、音韻を基本とした大語彙認
識装置や連続音声認識装置、音声ワード・プロセッサの
実用化や応用拡大ができなかった。
【0011】
【発明が解決しようとする課題】音声の認識はまず音韻
について行なわれ、次に単語や文の認識が行なわれる
が、音韻認識の精度を向上させることが難しい。これは
従来の音韻を単位とした音声認識装置では音韻認識率向
上のための音韻辞書学習と上位の知識を用いたトップダ
ウン的認識における入力音声の音韻への時間区分化を充
分考慮しなかったためで、これにより音韻認識の辞書が
高精度に作成できず、音韻を基本とした音声認識装置に
おいて高い認識率を得ることができなかった。
【0012】すなわち、音韻辞書を用いてトップダウン
的な音韻認識を行ない、その結果に基づき、音韻の区分
化を再び行ない、音韻の辞書を作成してこれをもとに再
び音韻認識をすると云った方式であるので、音韻認識結
果に基づく音韻辞書の学習が行なえないことから、高い
音韻認識率、さらには入力音声の高い認識率は得られて
いない。
【0013】本発明はこのような事情を考慮してなされ
たものであり、その目的とするところは、音韻辞書学習
とトップダウン的認識における入力音声の音韻への時間
的区分化の双方を考慮した高性能な音韻辞書作成が可能
で、入力音声の高い認識率を確保できるようにした音声
認識装置を提供することにある。
【0014】
【課題を解決するための手段】上記目的を達成するた
め、本発明は次のように構成する。すなわち、入力音声
データを分折して求められる音声の特徴パラメータの時
系列から音韻特徴ベクトルを音韻特徴ベクトル取得手段
により連続的に抽出し、これにより得られる音韻特徴ベ
クトルと音韻辞書記憶手段の保持する音韻別音韻特徴ベ
クトルよりなる音韻辞書とを音韻照合手段により照合し
て照合音韻の尤度時系列を求め、この求められた照合音
韻の尤度時系列と単語辞書記憶手段の保持する単語辞書
とを単語照合手段により照合し、単語の尤度を求め、尤
度の最良の単語を認識単語として得るようにした音声認
識装置において、第1には前記音韻辞書記憶手段は音韻
辞書を更新可能な構成とし、前記単語照合手段には音韻
尤度時系列と単語辞書との照合結果から入力の音韻区分
情報を得る機能を付加して構成し、また、学習モード時
に使用する学習用音声データを保持する学習用音声デー
タ保持手段と、前記単語照合手段より得られる入力の音
韻区分情報から学習用音韻特徴ベクトルを求める第1の
手段と、この第1の手段により得た学習用音韻特徴ベク
トルを使用して音韻辞書記憶手段の保持する音韻辞書を
更新する第2の手段と、学習モード時にこの学習用音声
データ保持手段より学習用音声データを前記音韻特徴ベ
クトル取得手段に供給すべく制御すると共に、音韻辞書
を前記第2の手段により更新し、更新された音韻辞書を
用いて前記音韻特徴ベクトル取得手段より得られる前記
学習用音声データの音韻特徴ベクトルに対する前記音韻
照合手段での音韻照合、この音韻照合結果を用いての前
記単語照合手段による単語照合を行なわせ、その結果を
使用して前記第1の手段および第2の手段により音韻辞
書を更新すべく制御する制御手段とを具備して構成す
る。
【0015】また、第2には制御手段には前記第1の制
御機能、および第2の制御機能の他、さらに、前記更新
された音韻辞書を用いて前記音韻特徴ベクトル取得手段
より得られる前記学習用音声データの音韻特徴ベクトル
に対する前記音韻照合手段での音韻照合、この音韻照合
結果を用いての前記単語照合手段による単語照合を行な
わせ、その結果を使用して前記第1の手段および第2の
手段により音韻辞書を更新すべく制御する第3の制御機
能とを備えて構成する。
【0016】
【作用】このような構成において、入力音声データを分
折して求められる音声の特徴パラメータの時系列から音
韻特徴ベクトルを音韻特徴ベクトル取得手段により連続
的に抽出し、これにより得られる音韻特徴ベクトルと音
韻辞書記憶手段の保持する音韻別音韻特徴ベクトルより
なる音韻辞書とを音韻照合手段により照合して照合音韻
の尤度時系列を求め、この求められた照合音韻の尤度時
系列と単語辞書記憶手段の保持する単語辞書とを単語照
合手段により照合し、単語の尤度を求め、尤度の最良の
単語を認識単語として得るが、第1の構成の場合、学習
モードにおいては、制御手段が、学習用音声データ保持
手段より学習用音声データを前記音韻特徴ベクトル取得
手段に供給すべく制御し、これにより得られる音韻特徴
ベクトル取得手段からの音韻特徴ベクトルと音韻辞書記
憶手段の保持する音韻別音韻特徴ベクトルよりなる音韻
辞書とを音韻照合手段により照合し、照合音韻の尤度時
系列を求め、この求められた照合音韻の尤度時系列と単
語辞書記憶手段の保持する単語辞書とを単語照合手段に
より照合し、単語の尤度を求めると共に、単語照合手段
はさらに音韻尤度時系列と単語辞書との照合結果から入
力の音韻区分情報を求め、前記第1の手段はこの単語照
合手段より得られる入力の音韻区分情報から学習用音韻
特徴ベクトルを求め、第2の手段はこの第1の手段より
得た学習用音韻特徴ベクトルを使用して音韻辞書記憶手
段の保持する音韻辞書を更新する。そして、前記制御手
段は学習モード時において、音韻辞書を前記第2の手段
により更新させ、且つ、この更新された音韻辞書を用い
て音韻照合手段により音韻照合させると共に、単語照合
手段により単語照合を行なわせ、その結果を使用して前
記第1の手段および第2の手段により音韻辞書を更新す
べく制御させる。
【0017】また、第2の構成の場合、学習モード時に
おいては制御手段はさらに、前記更新された音韻辞書を
用いて前記音韻特徴ベクトル取得手段より得られる前記
学習用音声データの音韻特徴ベクトルに対する前記音韻
照合手段での音韻照合、この音韻照合結果を用いての前
記単語照合手段による単語照合を行なわせ、その結果を
使用して前記第1の手段および第2の手段により音韻辞
書を更新すべく制御する。
【0018】要するに本システムは、入力音声データを
分折して求められる音声の特徴パラメータの時系列から
音韻特徴ベクトルを連続的に抽出し、この音韻特徴ベク
トルと音韻辞書とを照合し、音韻の尤度時系列を得て、
この得た音韻尤度時系列と単語辞書を照合し、認識結果
を出力すると共に、さらに、音韻尤度時系列と単語辞書
との照合結果から入力の音韻区分情報を得て、音韻区分
情報と入力の特徴パラメータの時系列から学習用音韻特
徴ベクトルを選択し、学習用音韻特徴ベクトルと音韻辞
書を照合し、音韻照合の判定結果と学習用音韻特徴ベク
トルから音韻辞書を学習し、新しい音韻辞書を得ると云
うものである。
【0019】学習モードは「音韻学習モード」と「単語
学習モード」とにより構成され、「単語学習モード」は
単語照合した結果から学習用音韻特徴ベクトルを選択す
るモードであり、また、「音韻学習モード」は記憶され
た学習用音韻特徴ベクトルを使用し音韻辞書を学習する
モードである。「単語学習モード」では、入力音声の内
容を表現する単語辞書と照合した結果から入力の特徴パ
ラメータの時系列の時間的区分を得て、入力単語辞書中
のそれぞれの音韻に対応する特徴ベクトルを選択し記憶
し、また、「音韻学習モード」では、学習用音韻特徴ベ
クトルを音韻辞書と照合し、学習に必要なデータである
か否かの判定を行ない、学習に必要なデータである場合
には音韻辞書の学習に使用し、新たな音韻辞書を得て、
学習の制御は音韻学習モードの学習を繰り返して行な
い、学習の結果から必要ならば「単語学習モード」で学
習用音韻特徴ベクトルを選択して、さらに「音韻学習モ
ード」で学習を行なうと云った処理を繰り返し、学習が
充分に行なわれたならば学習を停止させる。
【0020】なお、ここで云う単語辞書とは、単語認識
を行なうためのものであり、例えば文認識を行なう場合
には語彙や構文・意味情報などから生成される文認識辞
書を用いる。また、同様に「単語学習モード」とは単語
認識を行なう場合のモードものであり、例えば文認識を
行なう場合には「文学習モード」を表わす。
【0021】このように、本発明は入力音声の内容を表
現する単語辞書と照合した結果から入力の特徴パラメー
タの時系列の時間的区分を得て、入力単語辞書中のそれ
ぞれの音韻に対応する特徴ベクトルを選択し記憶し、さ
らにこの学習用音韻特徴ベクトルを音韻辞書と照合し、
学習に必要なデータであるか否かの判定を行ない、学習
に必要なデータである場合には音韻辞書の学習に使用
し、新たな音韻辞書を得るようにしたものであるから、
音韻を単位とした音声認識において高性能な音韻照合が
可能となる。
【0022】特に「単語学習モード」では単語辞書と照
合した結果から入力の特徴パラメータの時系列の音韻辞
書に適した時間的区分を得て、それぞれの音韻に対応し
た特徴ベクトルを高い精度で抽出でき、「音韻学習モー
ド」では学習用音韻特徴ベクトルと音韻辞書を用いて音
韻辞書学習を行ない、高い性能を持つ音韻辞書を作成す
ることができ、学習が「音韻学習モード」の学習の繰り
返しと「単語学習モード」の学習の組み合せを順次繰り
返すことで実現する構成としていることから、音韻の特
徴ベクトル抽出と音韻辞書の作成が同時に高精度に行な
うことができる。
【0023】また、話者適応型の認識装置において、音
韻学習と単語学習を繰り返し行なうことにより、話者の
発音法の特徴を考慮しながら、話者に適応した音韻辞書
の作成が可能となり、高い認識性能を得ることができ
る。
【0024】さらに、雑音中の音声の認識装置におい
て、雑音による音韻の特徴ベクトルの変化と音韻特徴の
時間的区分の変化を考慮した音韻辞書の作成が可能とな
り、高い認識性能を得ることができる。
【0025】従って、本発明によれば、音韻辞書学習と
トップダウン的認識における入力音声の音韻への時間的
区分化の双方を考慮した高性能な音韻辞書作成が可能
で、入力音声の高い認識率を確保できるようにした音声
認識装置を提供することができる。
【0026】
【実施例】以下、本発明の一実施例に係る音声認識装置
について、図面を参照して説明する。
【0027】図1は単語認識を行なう実施例装置の基本
的な概略ブロック図である。図において、1は音声入力
・分折部、2は音韻特徴ベクトル抽出部、3は音韻照合
部、4は単語照合部、5は音韻辞書部、6は単語辞書
部、7は音韻辞書更新部、8は音韻照合判定部、9は学
習用音韻特徴ベクトル格納部、10は学習用音声データ
格納部、11は学習制御部、12は照合結果判定出力
部、13は音韻特徴ベクトル選択部である。
【0028】また、SW1〜SW5はそれぞれ信号の経
路切り替え機能部を示しており、これらSW1〜SW5
で選択される経路のうち、Aなる符号を付して示す経路
は「認識モード」時の経路であり、また、Bなる符号を
付して示す経路は「音韻学習モード」時の経路であり、
また、Cなる符号を付して示す経路は「単語学習モー
ド」時の経路であることを示している。このような経路
の切り替え制御は学習制御部11によって制御される。
【0029】上記音声入力・分折部1は音声データの
5.4KHz以上の高周波成分を除去するローパスフィ
ルタ(LPF)と、このLPFを介して入力された音声
信号を標本化周波数12KHz、量子化ビット数16bi
tでディジタル信号に変換するA/D変換器と、このA
/D変換器により出力されたディジタル信号を256点
のDFT(離散的フーリエ変換)分折により、8msec毎
に128点の周波数スペクトルから周波数を16個に分
割した16チャンネルのフィルタバンク出力を求め、対
数化処理を行って16次元の音声の特徴パラメータの時
系列データに変換する分折部とから構成されるものであ
り、マイクロフォンなどからの直接入力された音声信号
あるいは、学習用音声データ格納部10に記憶された学
習用音声データを音声入力として受けて、これを音声の
特徴パラメータの時系列データに変換して出力するもの
である。
【0030】また、音韻特徴ベクトル抽出部2はこの音
声入力・分折部1からの出力である特徴パラメータの時
系列データを受けて、この特徴パラメータの時系列から
音韻辞書部5に格納された音韻辞書と照合するための音
韻特徴べクトルを順次抽出して音韻照合部3または音韻
特徴べクトル選択部13に与えるものであり、音韻照合
部3は周知の照合法を使用してこの音韻特徴べクトルを
音韻辞書部5の音韻辞書と照合し、尤度時系列を出力す
るものである。この尤度時系列出力は「音韻学習モー
ド」時(B)には音韻照合判定部8に入力され、「認識
モード」時(A)には単語照合部4に入力される。
【0031】音韻辞書部5は種々の音韻の情報を持たせ
た音韻辞書を記憶するものであり、音韻辞書更新部7に
より音韻辞書を更新することができるようになってい
る。
【0032】音韻照合判定部8は音韻照合部3からの照
合結果と学習用音韻特徴ベクトル格納部9の学習用音韻
特徴ベクトルに付与された音韻名との比較を行ない、双
方が一致するなど所定の照合条件を満たすか否かの判定
結果を学習制御部11に出力すると共に、所定の照合条
件を満たすか否かによる音韻辞書の更新をするか否かの
判定結果を音韻辞書更新部7に出力する機能を有するも
のである。
【0033】音韻辞書更新部7は判定結果から音韻辞書
学習に用いる特徴ベクトルを学習用音韻特徴ベクトル格
納部9から選択して音韻辞書部5に与え、更新記憶する
機能を有する。
【0034】単語照合部4は音韻照合部3からの音韻名
を含めた尤度時系列出力を受け、単語辞書部6の単語辞
書と照合して音韻区分情報(音韻の区切り位置)と音韻
名および音韻の尤度並びに単語としての尤度、総合点等
の情報を出力するものであり、照合結果判定出力部12
は単語照合部4でのこのような照合結果を受けて、得点
の最良の語を認識結果として出力するものである。
【0035】また、学習制御部11は学習開始の指示に
より、データの流れを制御しながら、「単語学習モー
ド」、「音韻学習モード」の処理のための制御や音韻学
習の終了判定、学習の終了判定などを行ない、学習の制
御を行なうものである。
【0036】音韻特徴ベクトル選択部13は単語学習モ
ード時において、単語照合部4より与えられる音韻区分
情報と、音韻名を用い、音韻特徴ベクトル抽出部2によ
り抽出された学習用音声データの音韻特徴べクトルを区
分して、この区分された音韻特徴べクトルを上記音韻名
を付与して学習用音韻特徴ベクトル格納部9に格納する
機能を有するものである。
【0037】学習用音声データ格納部10は学習用音声
データを格納するもので、基準となる種々の語について
の音声や、その語に対する読み(音韻名の時系列情
報)、音韻区分情報など種々の付帯情報を含めて記憶し
てある。
【0038】次にこのような構成の本装置の作用を図2
のフローチャートを参照して説明する。本システムにお
いては「認識モード」、「学習」の2つのモードがあ
り、「学習」は「単語学習モード」、「音韻学習モー
ド」の2種から構成されている。「認識モード」は入力
音声の認識処理を実施するモードで、S22〜S24の
ステップからなる処理であって、通常の実施モードであ
る。また、「学習」は音韻辞書の精度を高めるための学
習モードであり、「単語学習モード」と「音韻学習モー
ド」とのペアで実現される。
【0039】「単語学習モード」は現在の音韻辞書でど
の程度の単語認識が可能であるかを知るためのモードで
あって、S31〜S33のステップからなる処理であ
り、「音韻学習モード」は「単語学習モード」での単語
認識結果に基づいて音韻を学習し直すモードであって、
S34〜S38のステップからなる処理である。
【0040】音声はまずマイクロフォン等の音声入力手
段等より音声入力・分折部1に音声信号のかたちで入力
される。音声入力・分折部1はこの入力信号から高周波
成分を除去し、ディジタルデータ化し、さらにこのディ
ジタルデータを用いて16次元の音声の特徴パラメータ
の時系列を得る。
【0041】すなわち、音声入力・分折部1は音声デー
タの5.4KHz以上の高周波成分を除去するローパス
フィルタ(LPF)と、このLPFを介して入力された
音声信号を標本化周波数12KHz、量子化ビット数16
bitでディジタル信号に変換するA/D変換器と、2
56点のDFT(離散的フーリエ変換)分折により、8
msec毎に128点の周波数スペクトルから周波数を16
個に分割した16チャンネルのフィルタバンク出力を求
め、対数化処理により16次元の音声の特徴パラメータ
の時系列を得る分折部とから構成され、上述のような処
理がなされて、音声の特徴パラメータの時系列のかたち
で出力する。
【0042】このようにして音声入力・分折部1から出
力された音声の特徴パラメータの時系列は音韻特徴ベク
トル抽出部2に入力される(S21)。
【0043】一方、学習制御部11は最初に3つのうち
のいずれのモードを使用するかの指示に従いモードを選
択してシステムの動作モードを設定する。この指示は例
えば、オペレータやシステムの利用者が図示しない設定
手段を操作するなどして設定することも出来るし、ま
た、認識結果の誤り率が所定値に達すると自動的に学習
モードに入るようにしたり、学習を行いつつ認識モード
を実行するようにしたりする等、適宜に選択できる。
【0044】「認識モード」が指示されると学習制御部
11はSW1,SW3,SW4,SW5を符号“A”を
付して示す経路で繋ぐように設定する。これにより、音
声入力・分析部1,音韻特徴ベクトル抽出部2,音韻照
合部3,単語照合部4,照合結果判定出力部12の経路
が動作可能になる。
【0045】従って、マイクロフォンなどを介して外部
より入力される任意の音声を認識するモードである「認
識モード」では、上述のようにして音声入力・分折部1
から出力された音声の特徴パラメータの時系列を受け
て、音韻特徴ベクトル抽出部2はこの特徴パラメータの
時系列から音韻辞書部5に格納された音韻辞書と照合す
るための音韻特徴べクトルを順次抽出し、音韻照合部3
に送る。
【0046】音韻照合部3では順次入力される音韻特徴
べクトルそれぞれについて、音韻辞書部5に格納されて
いる音韻辞書と照合し、該当すると認識される音韻の尤
度時系列を出力する(S22)。照合する方式は従来、
種々提案されている手法を適宜採用可能であり、例え
ば、マハラノビス距離、複合類似度法などにより求める
ことができる。
【0047】音韻照合部3における照合で順次得られる
種々の区間分けによる認識音韻とその尤度、音韻の区分
情報等の情報は順次単語照合部4へ出力され、単語照合
部4ではこれを元に単語辞書を使用して単語照合を行な
うと共に、各単語毎にその尤度と総合点、音韻の尤度等
が算出される(S23)。ここで云う尤度とは類似度、
距離、確率など、及びそれらを種々の方式で変換したも
のであり、照合の方式により決まるものである。
【0048】単語照合部4での単語照合の結果は照合結
果判定出力部12で判定され、総合的に最良の値を示す
単語が認識結果として出力される(S24)。
【0049】ここで、音韻特徴ベクトルの構成は、固定
次元ベクトルである。例えば、音声の16チャネルの特
徴パラメータの時系列を時間軸方向に連続に、例えば、
6フレーム使用した16×6=96次元の時間周波数ベ
クトルを使用する。また、音韻辞書部5に格納する音韻
辞書は、例えば、複合類似度法による照合では辞書作成
用のそれぞれの音韻特徴ベクトルの相関行列を作成し、
その相関行列をKL展開した固有ベクトルと固有値にて
構成する。
【0050】また、単語辞書部6に格納される単語辞書
は音韻をノードとするグラフにより、認識の対象である
単語の音韻のつながりを記述した構成としてある。単語
辞書の例を図3に示す。図3は「あきた(秋田)」なる
固有名詞の単語の辞書の記述例であり、図において、円
で囲んだ“I”は有声で発音される“I”を示し、円で
囲んだ“#I”は無声化した母音である“I”を示して
いる。
【0051】すなわち、一例として示す認識単語である
“秋田(あきた)”は音韻/A/,/K/,/I/,/
T/,/A/の系列からなるが、通常の発音においては
/K/,/I/(つまり、“き”)における/I/は、
無声破裂音/K/,/T/の間にあるため、声帯が振動
しないまま発音を行なうことから、無声化した母音にな
る。
【0052】この無声化した母音は音響的には高い周波
数成分が多く、周波数特徴は声帯が振動して(有声)発
声された[I]とは異なる。一方、丁寧に発声された場
合には、/K/,/I/の/I/は有声で発声される。
【0053】このような発声において、音響特徴が変化
する性質(音形規則)に基づき、認識対象の音韻系列を
グラフに表す。また、それぞれの音声セグメントについ
ての情報、例えば音声セグメントNnの最小の継続時間
(lNnのmin )や、最大継続時間(lNnのmax )におい
てのものも、単語辞書部6の単語辞書には格納されてお
り、単語照合部4において使用される。
【0054】次に図4と図5,図6に基づき、単語照合
部4の動作について説明する。単語照合部4においては
各認識対象単語Wk について、その音韻の系列の順に従
って、各音韻の尤度の和から当該認識対象単語Wk の尤
度の最大値LFWk を求める。
【0055】すなわち、単語Wk の照合を例にとると、
Wk なる単語の入力音声における音韻特徴ベクトルにつ
いて、それぞれ定められた音韻照合範囲内で範囲を変え
ながら該当すると思われる音韻を探し、音韻区分情報と
音韻名を出力し(音韻照合部)、この音韻区分情報と音
韻名を受けてその音韻の尤度や所定の算出式に基づく総
合点を求めてゆき、その中から最大尤度を示すものを該
当音韻として順次求めてゆくことにより、最大尤度を示
す音韻列の最大尤度LFWk と総合点の合計等を求め、
次にこの求めた最大尤度LFWk の音韻列に該当する単
語を照合結果として単語照合部4は出力する。ただし、
各音韻、例えば単語Wk のn番目(nは1,2,3,4
…)の音韻Nn(ステップS1)の継続時間の範囲lNn
のmin 〜lNnのmax は、予め各音韻について定められた
ものがあり(ステップS2)、通常の発声における音韻
Nnの継続時間を表わす。
【0056】このように、音韻の継続時間の制限(最小
限lNnのmin〜最大値lNnのmax ,ステップS3)を利
用しながら動的計画法を用いて音韻間の境界位置tおよ
びt′(t′は現在の探索音韻区間の一つ前の音韻区間
の末尾位置、tは現在の探索音韻区間の末尾側境界位
置)を決定しつつ、単語Wk の始端より現在の探索音韻
位置までの合計の尤度LFWk を求め(LFNn,t=LF
Nn-1,t' +PLFNn(t,t')但し、LFNn,tはLFWk で
あり、音声始端からtまでの合計の尤度、LFNn-1,t'
は音声始端からt´までの累積尤度、PLFNn(t,t')は
現在の音韻区間内の対数尤度の和)、その中の最大値を
示す尤度LFWk と、その場合の各音韻間の境界位置t
およびt′を求める(ステップS4)。
【0057】そしてその認識対象単語Wk の構成音韻に
ついて全て照合され、音声終端TEの音韻区間における
尤度LFNn,TE を加えて音声始端から音声終端TE ま
での尤度の合計値を求め、これを単語Wk についての尤
度LFWk とする(ステップS6)。単語Wk について
の尤度LFWk が最も高いものを用い、その場合の音韻
列を単語辞書の各単語と照合し、単語Wk に対する単語
辞書の各単語の類似度を総合点のかたちで求める。これ
を照合結果判定出力部12で類似度の最大のものを判別
して、その判別した単語を認識結果として出力する。
【0058】この方法は例えば文献「IEEE,ICASSP’85
44. 14 (p.1594)」にそのアルゴリズムが述べられて
おり、図5,図6に示すようにそのアルゴリズムを本単
語認識に適用したものである。
【0059】このフローチャートの処理に従うことによ
り、図4の例では図に示したように/A/,/I/,/
K/,/T/の各音韻について、その尤度の和が最大値
をとることが認識されることになり、この例の場合、/
A/,/I/,/K/,/T/,/A/の順でそれぞれ
最大の尤度を示す音韻が出現したことを見出したことに
なり、さらに、その時の各音韻の境界位置、すなわち、
図4に示すような時間的情報Ki (i=1,2,3,
…)を得ることができるので、これを単語学習モードで
音韻区間情報として使用する。
【0060】学習では図2に示すように、まず「単語学
習モード」を実行し、次に「音韻学習モード」を実行す
る。
【0061】「単語学習モード」では、SW1〜SW5
において“C”の経路を辿って処理が流れるように制御
される。従って、これにより、学習用音声データ格納部
10,音声入力・分析部1,音韻特徴ベクトル抽出部
2,音韻照合部3,単語照合部4,音韻特徴ベクトル選
択部13,学習用音韻特徴ベクトル格納部9の経路が動
作可能になる。
【0062】また、「単語学習モード」では、予め学習
用音声データのデータベースを準備する。学習用音声デ
ータベースは学習用音声データとその発声内容情報から
なるもので、学習用音声データ格納部10に記憶されて
いる。
【0063】「単語学習モード」の処理に入ると、学習
用音声データ格納部10に記憶されている学習用音声デ
ータは読み出されて音声入力・分折部1に入力される。
そして、学習用音声データは「認識モード」と同様にこ
の音声入力・分折部1において分折され、音声の特徴パ
ラメータの時系列データに変換される(S21)。
【0064】そして、この変換された音声の特徴パラメ
ータの時系列データから音韻特徴ベクトル抽出部2は特
徴ベクトルの抽出を行ない、音韻照合部3はこの抽出さ
れた特徴ベクトルから該当する音韻の尤度の時系列を求
める(S31)。次に、これをもとに単語照合部4は単
語辞書から該当の単語を得る。
【0065】このようにして、学習用音声データの発声
内容から単語辞書を選択し、「認識モード」で述べた方
式と同様の方式により単語照合を行ない、該当する単語
を見付ける(S32)。
【0066】但し、「単語学習モード」においては、学
習用の音声データを用いるものであり、この音声データ
には音韻区間や音韻名、読み等のすべての情報が予め付
随情報として用意してあるので、単語辞書部6に記憶さ
れている単語辞書のすべての単語との照合を行なう必要
はなく、学習で選択した音声の単語との照合を行なうだ
けで良い。
【0067】次に単語照合部4は単語照合によって音韻
区分情報と音韻名を出力するので、音韻特徴ベクトル選
択部13はこの照合によって得られる音韻区分情報を用
いて音韻特徴ベクトル抽出部2により抽出された学習用
音声データの音韻特徴べクトルを該当区間について選択
し、上記の音韻名を付与して学習用音韻特徴ベクトル格
納部9に学習用音韻特徴ベクトルとして格納する(S3
3)。
【0068】単語照合部4での単語照合によって得られ
る音韻区分情報を含む各種情報は学習制御部11にも出
力され、学習の終了判定に用いられる。
【0069】すなわち、学習制御部11に学習用音声デ
ータ格納部10からの付随情報が入力されているので、
単語照合部4は単語照合によって得られた音韻区分情報
やその他の情報から類似度がどの程度かを知ることがで
き、認識が正しく行われたか否かを判定することがで
き、学習を終了すべきか否かを決定することができる。
「単語学習モード」での処理が済むと次は「音韻学習モ
ード」に移る。「音韻学習モード」では、学習用音韻特
徴ベクトル格納部9から学習用音韻特徴ベクトルを順次
読み出し、音韻照合部3で音韻辞書との照合を行なう
(S34)。
【0070】音韻照合判定部8では音韻照合部3での照
合結果と学習用音韻特徴ベクトル格納部9の学習用音韻
特徴ベクトルに付与された音韻名との比較を行なって一
致するか否かの判定を行ない、また、必要ならば音韻毎
の尤度を求め、これと判定結果を学習制御部11に出力
する。学習制御部11では学習用音声データ格納部10
からの付随情報を元に音韻照合判定部8からの判定結果
等の情報を勘案し、音韻学習を行なうか否かの判定を行
なう(S35)。
【0071】たとえば、判定条件として「すべての音韻
が正しく認識された」と云う条件や、「すべて正しく認
識され、しかも、2位との尤度差がTH1(閾値
“1”)以上ある」と云う条件などが考えられる。この
条件に合った場合には更新を行なわずに次の学習終了判
定を行なう。
【0072】音韻照合判定部8においての判定の結果、
音韻学習を行なうこととなった場合には、音韻辞書更新
部7は学習制御部11からの制御により、音韻辞書学習
に用いる特徴ベクトルを学習用音韻特徴ベクトル格納部
9から選択する(S36)。この選択の条件として、例
えば「認識を誤った」と云う条件や「認識を誤ったか、
または正しく認識されたが2位との尤度差がTH2以下
である」などの条件などが考えられる。さらに、「尤度
がTH3(閾値“3”)以上のデータ」と云う条件を加
えて、信頼性の高いデータに限定することも考えられ
る。
【0073】選択された学習用音韻特徴ベクトルは、音
韻辞書更新部7で辞書更新に用いる(S37)。たとえ
ば、複合類似度法による照合の場合には、予め用意され
ている相関行列と学習用音韻特徴ベクトルから新たな相
関行列を作成し、認識モード項での説明で述べたよう
に、KL展開を行なって更新した音韻辞書を得、さらに
続けて学習用音韻特徴ベクトルと音韻辞書の照合を行な
い、単語照合を行って「音韻学習モード」の実行を繰り
返す。
【0074】以上、述べた「音韻学習」を含む「学習」
の処理の終了判定は、学習制御部11において行なう。
この終了判定制御は、「単語学習モード」で得られた音
韻区分情報を用いて行ない、例えば現在の学習がI回目
であるとすると、「I−1回目での音韻区分情報とI回
目の音韻区分情報の差がすべてスレシホールドレベルT
H5 秒以下である」と云う条件が考えられる。また、
「学習回数iが5となったならば終了する」と云う条件
も考えられる。
【0075】このような終了判定条件が成立した場合に
は学習を終了する(S38)。
【0076】以上のように、本システムでは学習制御部
11は学習開始の指示により、図1に示すようにデータ
の流れを制御しながら、「単語学習モード」、「音韻学
習モード」の処理および音韻学習の終了判定、学習の終
了判定を行ない、学習の制御を行なう。
【0077】本実施例においては単語辞書を用いた単語
認識を行なったが、単語情報や文法情報などからなる文
認識辞書を用いた場合には文認識も可能である。さら
に、本実施例における尤度とは距離数似度,確率やそれ
らを変換したものであり、照合方式により決まるもので
ある。ただし、尤度についての説明で最大,最少と述べ
たものは距離の場合には、最少,最大と読み替えるもの
とする。
【0078】さらに、単語音声の認識では、単語照合に
先立って、音声の終了端検出を行うのも計算量削減とい
う点から効果的である。
【0079】以上本発明システムにおける動作説明は単
語認識を例としたが、本発明は単語認識に限らず、連続
単語や文節、文の認識にも適用可能である。また、音声
発声の言語的最小単位としての音韻を用いて説明を行な
ったが、音節、母音・子音・母音、子音・母音・子音や
半音節など単位としての意味を逸脱しない範囲で適用可
能である。その他、本発明はその要旨を変更しない範囲
内で適宜変形して実施し得るものである。
【0080】以上、説明したように本装置は、入力音声
データを分折して求められる音声の特徴パラメータの時
系列から音韻特徴ベクトルを音韻特徴ベクトル取得手段
により連続的に抽出し、これにより得られる音韻特徴ベ
クトルと音韻辞書記憶手段の保持する音韻別音韻特徴ベ
クトルよりなる音韻辞書とを音韻照合手段により照合し
て照合音韻の尤度時系列を求め、この求められた照合音
韻の尤度時系列と単語辞書記憶手段の保持する単語辞書
とを単語照合手段により照合し、単語の尤度を求め、尤
度の最良の単語を認識単語として得るようにした音声認
識装置において、前記音韻辞書記憶手段は音韻辞書を更
新可能な構成とし、前記単語照合手段には音韻尤度時系
列と単語辞書との照合結果から入力の音韻区分情報を得
る機能を付加して構成し、また、学習モード時に使用す
る学習用音声データを保持する学習用音声データ保持手
段と、前記単語照合手段より得られる入力の音韻区分情
報から学習用音韻特徴ベクトルを求める第1の手段と、
この第1の手段により得た学習用音韻特徴ベクトルを使
用して音韻辞書記憶手段の保持する音韻辞書を更新する
第2の手段と、学習モード時にこの学習用音声データ保
持手段より学習用音声データを前記音韻特徴ベクトル取
得手段に供給すべく制御する第1の制御機能、およびこ
の供給された学習用音声データをもとに前記単語照合手
段より得られる入力の音韻区分情報から第1の手段の求
めた学習用音韻特徴ベクトルを用いて前記音韻辞書を前
記第2の手段により更新させるべく制御する第2の制御
機能、およびこの更新された音韻辞書を用いて前記音韻
特徴ベクトル取得手段より得られる前記学習用音声デー
タの音韻特徴ベクトルに対する前記音韻照合手段での音
韻照合、この音韻照合結果を用いての前記単語照合手段
による単語照合を行なわせ、その結果を使用して前記第
1の手段および第2の手段により音韻辞書を更新すべく
制御する第3の制御機能、およびこれら第1乃至第3の
制御機能の実施を繰り返し、音韻認識結果、単語照合結
果に応じ、学習の終了判定を行なう第4の制御機能とを
備えた制御手段とを具備して構成したものである。
【0081】そして、このような構成において、入力音
声データを分折して求められる音声の特徴パラメータの
時系列から音韻特徴ベクトルを音韻特徴ベクトル取得手
段により連続的に抽出し、これにより得られる音韻特徴
ベクトルと音韻辞書記憶手段の保持する音韻別音韻特徴
ベクトルよりなる音韻辞書とを音韻照合手段により照合
して照合音韻の尤度時系列を求め、この求められた照合
音韻の尤度時系列と単語辞書記憶手段の保持する単語辞
書とを単語照合手段により照合し、単語の尤度を求め、
尤度の最良の単語を認識単語として得るが、学習モード
においては、制御手段が、学習用音声データ保持手段よ
り学習用音声データを前記音韻特徴ベクトル取得手段に
供給すべく制御し、これにより得られる音韻特徴ベクト
ル取得手段からの音韻特徴ベクトルと音韻辞書記憶手段
の保持する音韻別音韻特徴ベクトルよりなる音韻辞書と
を音韻照合手段により照合し、照合音韻の尤度時系列を
求め、この求められた照合音韻の尤度時系列と単語辞書
記憶手段の保持する単語辞書とを単語照合手段により照
合し、単語の尤度を求めると共に、単語照合手段はさら
に音韻尤度時系列と単語辞書との照合結果から入力の音
韻区分情報を求め、前記第1の手段はこの単語照合手段
より得られる入力の音韻区分情報から学習用音韻特徴ベ
クトルを求め、第2の手段はこの第1の手段より得た学
習用音韻特徴ベクトルを使用して音韻辞書記憶手段の保
持する音韻辞書を更新する。そして、前記制御手段は学
習モード時において、音韻辞書を前記第2の手段により
更新させ、且つ、この更新された音韻辞書を用いて音韻
照合手段により音韻照合させると共に、単語照合手段に
より単語照合を行なわせ、その結果を使用して前記第1
の手段および第2の手段により音韻辞書を更新すべく制
御させる。
【0082】さらに、前記更新された音韻辞書を用いて
前記音韻特徴ベクトル取得手段より得られる前記学習用
音声データの音韻特徴ベクトルに対する前記音韻照合手
段での音韻照合、この音韻照合結果を用いての前記単語
照合手段による単語照合を行なわせ、その結果を使用し
て前記第1の手段および第2の手段により音韻辞書を更
新すべく制御させる。そして、音韻認識結果、単語照合
結果に応じて学習終了させる。
【0083】要するに本システムは、入力音声データを
分折して求められる音声の特徴パラメータの時系列から
音韻特徴ベクトルを連続的に抽出し、この音韻特徴ベク
トルと音韻辞書とを照合し、音韻の尤度時系列を得て、
この得た音韻尤度時系列と単語辞書を照合し、認識結果
を出力すると共に、さらに、音韻尤度時系列と単語辞書
との照合結果から入力の音韻区分情報を得て、音韻区分
情報と入力の特徴パラメータの時系列から学習用音韻特
徴ベクトルを選択し、学習用音韻特徴ベクトルと音韻辞
書を照合し、音韻照合の判定結果と学習用音韻特徴ベク
トルから音韻辞書を学習し、新しい音韻辞書を得ると云
うものである。
【0084】学習モードは「音韻学習モード」と「単語
学習モード」とにより構成され、「単語学習モード」は
単語照合した結果から学習用音韻特徴ベクトルを選択す
るモードであり、また、「音韻学習モード」は記憶され
た学習用音韻特徴ベクトルを使用し音韻辞書を学習する
モードである。「単語学習モード」では、入力音声の内
容を表現する単語辞書と照合した結果から入力の特徴パ
ラメータの時系列の時間的区分を得て、入力単語辞書中
のそれぞれの音韻に対応する特徴ベクトルを選択し記憶
し、また、「音韻学習モード」では、学習用音韻特徴ベ
クトルを音韻辞書と照合し、学習に必要なデータである
か否かの判定を行ない、学習に必要なデータである場合
には音韻辞書の学習に使用し、新たな音韻辞書を得て、
学習の制御は音韻学習モードの学習を繰り返して行な
い、学習の結果から必要ならば「単語学習モード」で学
習用音韻特徴ベクトルを選択して、さらに「音韻学習モ
ード」で学習を行なうと云った処理を繰り返し、学習が
充分に行なわれたならば学習を停止させる。
【0085】なお、ここで云う単語辞書とは、単語認識
を行なうためのものであり、例えば文認識を行なう場合
には語彙や構文・意味情報などから生成される文認識辞
書を用いる。また、同様に「単語学習モード」とは単語
認識を行なう場合のモードものであり、例えば文認識を
行なう場合には「文学習モード」を表わす。
【0086】このように、本発明は入力音声の内容を表
現する単語辞書と照合した結果から入力の特徴パラメー
タの時系列の時間的区分を得て、入力単語辞書中のそれ
ぞれの音韻に対応する特徴ベクトルを選択し記憶し、さ
らにこの学習用音韻特徴ベクトルを音韻辞書と照合し、
学習に必要なデータであるか否かの判定を行ない、学習
に必要なデータである場合には音韻辞書の学習に使用
し、新たな音韻辞書を得るようにしたものであるから、
音韻を単位とした音声認識において高性能な音韻照合が
可能となる。
【0087】特に「単語学習モード」では単語辞書と照
合した結果から入力の特徴パラメータの時系列の音韻辞
書に適した時間的区分を得て、それぞれの音韻に対応し
た特徴ベクトルを高い精度で抽出でき、「音韻学習モー
ド」では学習用音韻特徴ベクトルと音韻辞書を用いて音
韻辞書学習を行ない、高い性能を持つ音韻辞書を作成す
ることができ、学習が「音韻学習モード」の学習の繰り
返しと「単語学習モード」の学習の組み合せを順次繰り
返すことで実現する構成としていることから、音韻の特
徴ベクトル抽出と音韻辞書の作成が同時に高精度に行な
うことができる。
【0088】また、話者適応型の認識装置において、音
韻学習と単語学習を繰り返し行なうことにより、話者の
発音法の特徴を考慮しながら、話者に適応した音韻辞書
の作成が可能となり、高い認識性能を得ることができ
る。
【0089】さらに、雑音中の音声の認識装置におい
て、雑音による音韻の特徴ベクトルの変化と音韻特徴の
時間的区分の変化を考慮した音韻辞書の作成が可能とな
り、高い認識性能を得ることができる。
【0090】従って、本発明によれば、音韻辞書学習と
トップダウン的認識における入力音声の音韻への時間的
区分化の双方を考慮した高性能な音韻辞書作成が可能
で、入力音声の高い認識率を確保できるようにした音声
認識装置を提供することができる。
【0091】
【発明の効果】以上説明したように本発明によれば、音
韻を単位とした音声認識において、音韻辞書学習とトッ
プダウン的認識による入力の音韻への時間的区分化の両
方を考慮した学習機能により高性能な音韻照合が可能と
なり、単語辞書を用いた入力音声の認識において高い認
識率を得ることが可能となる。
【図面の簡単な説明】
【図1】本発明の一実施例を示すブロック図。
【図2】本発明システムの動作を説明するためのフロー
チャート。
【図3】本発明システムに用いる単語辞書の構成例を説
明するための図。
【図4】本発明システムにおける音声特徴パラメータと
音韻尤度との関係を説明するための図。
【図5】本発明システムに使用する単語認識の手法を説
明するフローチャート。
【図6】本発明システムに使用する単語認識の手法を説
明するフローチャート。
【符号の説明】
1…音声入力・分折部、2…音韻特徴ベクトル抽出部、
3…音韻照合部、4…単語照合部、5…音韻辞書部、6
…単語辞書部、7…音韻辞書更新部、8…音韻照合判定
部、9…学習用音韻特徴ベクトル格納部、10…学習用
音声データ格納部、11…学習制御部、12…照合結果
判定出力部、13…音韻特徴ベクトル選択部、SW1〜
SW5…信号の経路切り替え機能部。

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 入力音声データを分折して求められる音
    声の特徴パラメータの時系列から音韻特徴ベクトルを音
    韻特徴ベクトル取得手段により連続的に抽出し、これに
    より得られる音韻特徴ベクトルと音韻辞書記憶手段の保
    持する音韻別音韻特徴ベクトルよりなる音韻辞書とを音
    韻照合手段により照合して照合音韻の尤度時系列を求
    め、この求められた照合音韻の尤度時系列と単語辞書記
    憶手段の保持する単語辞書とを単語照合手段により照合
    し、単語の尤度を求め、尤度の最良の単語を認識単語と
    して得るようにした音声認識装置において、 前記音韻辞書記憶手段は音韻辞書を更新可能な構成と
    し、前記単語照合手段には音韻尤度時系列と単語辞書と
    の照合結果から入力の音韻区分情報を得る機能を付加し
    て構成し、 また、学習モード時に使用する学習用音声データを保持
    する学習用音声データ保持手段と、 前記単語照合手段より得られる入力の音韻区分情報から
    学習用音韻特徴ベクトルを求める第1の手段と、 この第1の手段により得た学習用音韻特徴ベクトルを使
    用して音韻辞書記憶手段の保持する音韻辞書を更新する
    第2の手段と、 学習モード時にこの学習用音声データ保持手段より学習
    用音声データを前記音韻特徴ベクトル取得手段に供給す
    べく制御すると共に、音韻辞書を前記第2の手段により
    更新し、更新された音韻辞書を用いて音韻照合、単語照
    合を行ない、その結果を使用して前記第1の手段および
    第2の手段により音韻辞書を更新すべく制御する制御手
    段とを具備して構成したことを特徴とする音声認識装
    置。
  2. 【請求項2】 入力音声データを分折して求められる音
    声の特徴パラメータの時系列から音韻特徴ベクトルを音
    韻特徴ベクトル取得手段により連続的に抽出し、これに
    より得られる音韻特徴ベクトルと音韻辞書記憶手段の保
    持する音韻別音韻特徴ベクトルよりなる音韻辞書とを音
    韻照合手段により照合して照合音韻の尤度時系列を求
    め、この求められた照合音韻の尤度時系列と単語辞書記
    憶手段の保持する単語辞書とを単語照合手段により照合
    し、単語の尤度を求め、尤度の最良の単語を認識単語と
    して得るようにした音声認識装置において、 前記音韻辞書記憶手段は音韻辞書を更新可能な構成と
    し、前記単語照合手段には音韻尤度時系列と単語辞書と
    の照合結果から入力の音韻区分情報を得る機能を付加し
    て構成し、 また、学習モード時に使用する学習用音声データを保持
    する学習用音声データ保持手段と、 前記単語照合手段より得られる入力の音韻区分情報から
    学習用音韻特徴ベクトルを求める第1の手段と、 この第1の手段により得た学習用音韻特徴ベクトルを使
    用して音韻辞書記憶手段の保持する音韻辞書を更新する
    第2の手段と、 学習モード時にこの学習用音声データ保持手段より学習
    用音声データを前記音韻特徴ベクトル取得手段に供給す
    べく制御する第1の制御機能、およびこの供給された学
    習用音声データをもとに前記単語照合手段より得られる
    入力の音韻区分情報から第1の手段の求めた学習用音韻
    特徴ベクトルを用いて前記音韻辞書を前記第2の手段に
    より更新させるべく制御する第2の制御機能、およびこ
    の更新された音韻辞書を用いて前記音韻特徴ベクトル取
    得手段より得られる前記学習用音声データの音韻特徴ベ
    クトルに対する前記音韻照合手段での音韻照合、この音
    韻照合結果を用いての前記単語照合手段による単語照合
    を行なわせ、その結果を使用して前記第1の手段および
    第2の手段により音韻辞書を更新すべく制御する第3の
    制御機能とを備えた制御手段とを備えたことを特徴とす
    る音声認識装置。
  3. 【請求項3】 入力音声データを分折して求められる音
    声の特徴パラメータの時系列から音韻特徴ベクトルを音
    韻特徴ベクトル取得手段により連続的に抽出し、これに
    より得られる音韻特徴ベクトルと音韻辞書記憶手段の保
    持する音韻別音韻特徴ベクトルよりなる音韻辞書とを音
    韻照合手段により照合して照合音韻の尤度時系列を求
    め、この求められた照合音韻の尤度時系列と単語辞書記
    憶手段の保持する単語辞書とを単語照合手段により照合
    し、単語の尤度を求め、尤度の最良の単語を認識単語と
    して得るようにした音声認識装置において、 前記音韻辞書記憶手段は音韻辞書を更新可能な構成と
    し、前記単語照合手段には音韻尤度時系列と単語辞書と
    の照合結果から入力の音韻区分情報を得る機能を付加し
    て構成し、 また、学習モード時に使用する学習用音声データを保持
    する学習用音声データ保持手段と、 前記単語照合手段より得られる入力の音韻区分情報から
    学習用音韻特徴ベクトルを求める第1の手段と、 この第1の手段により得た学習用音韻特徴ベクトルを使
    用して音韻辞書記憶手段の保持する音韻辞書を更新する
    第2の手段と、 学習モード時にこの学習用音声データ保持手段より学習
    用音声データを前記音韻特徴ベクトル取得手段に供給す
    べく制御する第1の制御機能、およびこの供給された学
    習用音声データをもとに前記単語照合手段より得られる
    入力の音韻区分情報から第1の手段の求めた学習用音韻
    特徴ベクトルを用いて前記音韻辞書を前記第2の手段に
    より更新させるべく制御する第2の制御機能、およびこ
    の更新された音韻辞書を用いて前記音韻特徴ベクトル取
    得手段より得られる前記学習用音声データの音韻特徴ベ
    クトルに対する前記音韻照合手段での音韻照合、この音
    韻照合結果を用いての前記単語照合手段による単語照合
    を行なわせ、その結果を使用して前記第1の手段および
    第2の手段により音韻辞書を更新すべく制御する第3の
    制御機能、およびこれら第1乃至第3の制御機能の実施
    を繰り返し、音韻認識結果、単語照合結果に応じ、学習
    の終了判定を行なう第4の制御機能とを備えた制御手段
    とを具備したことを特徴とする音声認識装置。
JP25255591A 1991-09-30 1991-09-30 音声認識装置 Expired - Fee Related JP3231365B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP25255591A JP3231365B2 (ja) 1991-09-30 1991-09-30 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25255591A JP3231365B2 (ja) 1991-09-30 1991-09-30 音声認識装置

Publications (2)

Publication Number Publication Date
JPH0588693A true JPH0588693A (ja) 1993-04-09
JP3231365B2 JP3231365B2 (ja) 2001-11-19

Family

ID=17239002

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25255591A Expired - Fee Related JP3231365B2 (ja) 1991-09-30 1991-09-30 音声認識装置

Country Status (1)

Country Link
JP (1) JP3231365B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006178790A (ja) * 2004-12-22 2006-07-06 Ricoh Co Ltd 状態検知装置、状態検知方法、プログラムおよび記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006178790A (ja) * 2004-12-22 2006-07-06 Ricoh Co Ltd 状態検知装置、状態検知方法、プログラムおよび記録媒体
JP4637564B2 (ja) * 2004-12-22 2011-02-23 株式会社リコー 状態検知装置、状態検知方法、プログラムおよび記録媒体

Also Published As

Publication number Publication date
JP3231365B2 (ja) 2001-11-19

Similar Documents

Publication Publication Date Title
US11373633B2 (en) Text-to-speech processing using input voice characteristic data
JP6705008B2 (ja) 話者照合方法及びシステム
US5953701A (en) Speech recognition models combining gender-dependent and gender-independent phone states and using phonetic-context-dependence
US5033087A (en) Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
JP4141495B2 (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
EP2048655B1 (en) Context sensitive multi-stage speech recognition
JP4224250B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JPH06175696A (ja) 音声コード化装置及びその方法並びに音声認識装置及びその方法
JP4340685B2 (ja) 音声認識装置及び音声認識方法
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
WO2021118793A1 (en) Speech processing
JP2004325635A (ja) 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体
KR20210052563A (ko) 문맥 기반의 음성인식 서비스를 제공하기 위한 방법 및 장치
JP5300000B2 (ja) 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム
JP3231365B2 (ja) 音声認識装置
JP5315976B2 (ja) 音声認識装置、音声認識方法、および、プログラム
Wu et al. Application of simultaneous decoding algorithms to automatic transcription of known and unknown words
JPH1097273A (ja) 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体
JP2001005483A (ja) 単語音声認識方法及び単語音声認識装置
JP3357752B2 (ja) パターンマッチング装置
Mary et al. Keyword spotting techniques
JP3105708B2 (ja) 音声認識装置
JPH0962290A (ja) 音声認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070914

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080914

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080914

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090914

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees